Published April 3, 2023 | Version v1
Publication Open

A machine learning approach for Urdu text sentiment analysis

  • 1. Pir Mehr Ali Shah Arid Agriculture University

Description

Product evaluations, ratings, and other sorts of online expressions have risen in popularity as a result of the emergence of social networking sites and blogs. Sentiment analysis has emerged as a new area of study for computational linguists as a result of this rapidly expanding data set. From around a decade ago, this has been a topic of discussion for English speakers. However, the scientific community completely ignores other important languages, such as Urdu. Morphologically, Urdu is one of the most complex languages in the world. For this reason, a variety of unique characteristics, such as the language's unusual morphology and unrestricted word order, make the Urdu language processing a difficult challenge to solve. This research provides a new framework for the categorization of Urdu language sentiments. The main contributions of the research are to show how important this multidimensional research problem is as well as its technical parts, such as the parsing algorithm, corpus, lexicon, etc. A new approach for Urdu text sentiment analysis including data gathering, pre-processing, feature extraction, feature vector formation, and finally, sentiment classification has been designed to deal with Urdu language sentiments. The result and discussion section provides a comprehensive comparison of the proposed work with the standard baseline method in terms of precision, recall, f-measure, and accuracy of three different types of datasets. In the overall comparison of the models, the proposed work shows an encouraging achievement in terms of accuracy and other metrics. Last but not least, this section also provides the featured trend and possible direction of the current work.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

ارتفعت شعبية تقييمات المنتجات والتقييمات وأنواع أخرى من التعبيرات عبر الإنترنت نتيجة لظهور مواقع التواصل الاجتماعي والمدونات. برز تحليل المشاعر كمجال جديد لدراسة اللغويين الحسابيين نتيجة لمجموعة البيانات سريعة التوسع هذه. منذ حوالي عقد من الزمان، كان هذا موضوع نقاش للمتحدثين باللغة الإنجليزية. ومع ذلك، يتجاهل المجتمع العلمي تمامًا اللغات المهمة الأخرى، مثل الأردية. من الناحية الشكلية، تعد الأردية واحدة من أكثر اللغات تعقيدًا في العالم. لهذا السبب، فإن مجموعة متنوعة من الخصائص الفريدة، مثل التشكل غير العادي للغة وترتيب الكلمات غير المقيد، تجعل معالجة اللغة الأردية تحديًا يصعب حله. يوفر هذا البحث إطارًا جديدًا لتصنيف المشاعر اللغوية الأردية. تتمثل المساهمات الرئيسية للبحث في إظهار مدى أهمية مشكلة البحث متعددة الأبعاد هذه بالإضافة إلى أجزائها الفنية، مثل خوارزمية التحليل، والنصوص، والمعجم، وما إلى ذلك. تم تصميم نهج جديد لتحليل معنويات النص الأردوي بما في ذلك جمع البيانات والمعالجة المسبقة واستخراج الميزات وتشكيل متجهات الميزات وأخيرًا تصنيف المشاعر للتعامل مع معنويات اللغة الأردية. يوفر قسم النتائج والمناقشة مقارنة شاملة للعمل المقترح مع طريقة خط الأساس القياسية من حيث الدقة والتذكر والقياس والدقة لثلاثة أنواع مختلفة من مجموعات البيانات. في المقارنة الشاملة للنماذج، يُظهر العمل المقترح إنجازًا مشجعًا من حيث الدقة والمقاييس الأخرى. أخيرًا وليس آخرًا، يقدم هذا القسم أيضًا الاتجاه المميز والاتجاه المحتمل للعمل الحالي.

Translated Description (French)

Les évaluations de produits, les évaluations et d'autres types d'expressions en ligne ont gagné en popularité en raison de l'émergence de sites de réseaux sociaux et de blogs. L'analyse des sentiments est devenue un nouveau domaine d'étude pour les linguistes informaticiens en raison de cet ensemble de données en pleine expansion. Depuis une dizaine d'années, c'est un sujet de discussion pour les anglophones. Cependant, la communauté scientifique ignore complètement d'autres langues importantes, telles que l'ourdou. Morphologiquement, l'ourdou est l'une des langues les plus complexes au monde. Pour cette raison, une variété de caractéristiques uniques, telles que la morphologie inhabituelle de la langue et l'ordre des mots sans restriction, font du traitement de la langue ourdou un défi difficile à résoudre. Cette recherche fournit un nouveau cadre pour la catégorisation des sentiments en langue ourdou. Les principales contributions de la recherche sont de montrer l'importance de ce problème de recherche multidimensionnelle ainsi que de ses parties techniques, telles que l'algorithme d'analyse, le corpus, le lexique, etc. Une nouvelle approche pour l'analyse des sentiments textuels en ourdou, comprenant la collecte de données, le prétraitement, l'extraction de caractéristiques, la formation de vecteurs de caractéristiques et, enfin, la classification des sentiments, a été conçue pour traiter les sentiments en ourdou. La section Résultat et discussion fournit une comparaison complète du travail proposé avec la méthode de référence standard en termes de précision, de rappel, de mesure f et d'exactitude de trois types différents d'ensembles de données. Dans la comparaison globale des modèles, le travail proposé montre une réalisation encourageante en termes de précision et d'autres paramètres. Enfin, cette section fournit également la tendance en vedette et l'orientation possible du travail en cours.

Translated Description (Spanish)

Las evaluaciones de productos, las calificaciones y otros tipos de expresiones en línea han aumentado en popularidad como resultado de la aparición de sitios de redes sociales y blogs. El análisis de sentimientos se ha convertido en una nueva área de estudio para los lingüistas computacionales como resultado de este conjunto de datos en rápida expansión. Desde hace aproximadamente una década, este ha sido un tema de discusión para los angloparlantes. Sin embargo, la comunidad científica ignora por completo otros idiomas importantes, como el urdu. Morfológicamente, el urdu es una de las lenguas más complejas del mundo. Por esta razón, una variedad de características únicas, como la morfología inusual del idioma y el orden de las palabras sin restricciones, hacen que el procesamiento del idioma urdu sea un desafío difícil de resolver. Esta investigación proporciona un nuevo marco para la categorización de los sentimientos del idioma urdu. Las principales contribuciones de la investigación son mostrar la importancia de este problema de investigación multidimensional, así como sus partes técnicas, como el algoritmo de análisis, el corpus, el léxico, etc. Se ha diseñado un nuevo enfoque para el análisis de sentimientos de texto en urdu que incluye la recopilación de datos, el preprocesamiento, la extracción de características, la formación de vectores de características y, finalmente, la clasificación de sentimientos para lidiar con los sentimientos del idioma urdu. La sección de resultados y discusión proporciona una comparación exhaustiva del trabajo propuesto con el método de referencia estándar en términos de precisión, recuperación, medida f y precisión de tres tipos diferentes de conjuntos de datos. En la comparación general de los modelos, el trabajo propuesto muestra un logro alentador en términos de precisión y otras métricas. Por último, pero no menos importante, esta sección también proporciona la tendencia destacada y la posible dirección del trabajo actual.

Files

691.pdf

Files (486.3 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:e82bf61829f3717c5b4d88c7f448f3e5
486.3 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نهج التعلم الآلي لتحليل معنويات النص الأردوي
Translated title (French)
Une approche d'apprentissage automatique pour l'analyse du sentiment textuel en ourdou
Translated title (Spanish)
Un enfoque de aprendizaje automático para el análisis de sentimientos de texto en urdu

Identifiers

Other
https://openalex.org/W4362588308
DOI
10.22581/muet1982.2302.09

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W2052592714
  • https://openalex.org/W2055937093
  • https://openalex.org/W2114154195
  • https://openalex.org/W2126905976
  • https://openalex.org/W2502187034
  • https://openalex.org/W2510916058
  • https://openalex.org/W2613544310
  • https://openalex.org/W2615369478
  • https://openalex.org/W2618461247
  • https://openalex.org/W2676554382
  • https://openalex.org/W2744086288
  • https://openalex.org/W2768764839
  • https://openalex.org/W2899069249
  • https://openalex.org/W2914363692
  • https://openalex.org/W2927439335
  • https://openalex.org/W2966292608
  • https://openalex.org/W3025955883
  • https://openalex.org/W3046950317
  • https://openalex.org/W3087752199
  • https://openalex.org/W3112960018
  • https://openalex.org/W3124141902
  • https://openalex.org/W3128561444
  • https://openalex.org/W3138402443
  • https://openalex.org/W3150290404
  • https://openalex.org/W3163841364
  • https://openalex.org/W3168170338
  • https://openalex.org/W3176267567
  • https://openalex.org/W3194774163
  • https://openalex.org/W3215748564
  • https://openalex.org/W4200464847
  • https://openalex.org/W4205442565
  • https://openalex.org/W4220738400
  • https://openalex.org/W4220866756
  • https://openalex.org/W4225679670
  • https://openalex.org/W4319840113