Analyzing LDA and NMF Topic Models for Urdu Tweets via Automatic Labeling
Creators
- 1. National University of Sciences and Technology
- 2. Prince Sultan University
Description
Various topic modeling methods provide a means of understanding and analyzing content available on social media platforms like Twitter and Facebook in an unsupervised manner. However, despite several existing conventional techniques, they have had limited success when applied directly for filtering and quick comprehension of short-text contents due to text sparseness and noise. Thus, it always has been a challenging problem to discover reliable latent topics from online discussion texts that prevailed with low words co-occurrence and availability of large size social media benchmark datasets even for resource-rich languages. The existing literature lacks such work for Urdu text to unveil niche topics even with conventional topic models mainly due to lack of benchmark datasets, limited availability of pre-processing tools/ algorithms, and time and compute limitations on large size datasets. This work presents experiments with multiple approaches of topic modeling like Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (PLSA), Latent Dirichlet Allocation (LDA), and Non-negative Matrix Factorization (NMF) on 0.8 million Urdu tweets. These tweets are collected through Twitter API by giving various hashtags as a query to avoid dominance of single topic in the dataset. In addition, we have pre-processed the text of the tweets, prepared the three variants of the collected dataset, and extracted multiple features to represent documents on different n-grams. Furthermore, all these techniques are compared and evaluated on the dataset variants using both qualitative and quantitative measures. We have also demonstrated the results of these approaches through visualization methods, graphs depicting tweets size per topic, word clouds, and hashtags analysis giving insights about algorithms performances on finalized topics. Observed results reveal that NMF outperformed aa the techniques with TF-IDF feature vectors on Urdu tweets text while LDA performed best with merging shorttext strategy into long pseudo documents.
Translated Descriptions
Translated Description (Arabic)
توفر طرق نمذجة الموضوعات المختلفة وسيلة لفهم وتحليل المحتوى المتاح على منصات وسائل التواصل الاجتماعي مثل تويتر وفيسبوك بطريقة غير خاضعة للرقابة. ومع ذلك، على الرغم من العديد من التقنيات التقليدية الحالية، إلا أنها حققت نجاحًا محدودًا عند تطبيقها مباشرة للتصفية والفهم السريع لمحتويات النص القصير بسبب تناثر النص والضوضاء. وبالتالي، كان من الصعب دائمًا اكتشاف موضوعات كامنة موثوقة من نصوص المناقشة عبر الإنترنت التي سادت مع وجود كلمات منخفضة وتوافر مجموعات بيانات مرجعية كبيرة الحجم لوسائل التواصل الاجتماعي حتى بالنسبة للغات الغنية بالموارد. تفتقر الأدبيات الحالية إلى مثل هذا العمل للنص الأردوي للكشف عن الموضوعات المتخصصة حتى مع نماذج الموضوعات التقليدية ويرجع ذلك أساسًا إلى نقص مجموعات البيانات المعيارية، ومحدودية توافر أدوات/ خوارزميات المعالجة المسبقة، وقيود الوقت والحساب على مجموعات البيانات كبيرة الحجم. يقدم هذا العمل تجارب مع مناهج متعددة لنمذجة الموضوعات مثل التحليل الدلالي الكامن (LSA)، والتحليل الدلالي الكامن الاحتمالي (PLSA)، وتخصيص Dirichlet الكامن (LDA)، وعوامل المصفوفة غير السلبية (NMF) على 0.8 مليون تغريدة باللغة الأردية. يتم جمع هذه التغريدات من خلال واجهة برمجة تطبيقات تويتر من خلال إعطاء علامات تصنيف مختلفة كاستعلام لتجنب هيمنة موضوع واحد في مجموعة البيانات. بالإضافة إلى ذلك، قمنا بمعالجة نص التغريدات مسبقًا، وأعددنا المتغيرات الثلاثة لمجموعة البيانات التي تم جمعها، واستخرجنا ميزات متعددة لتمثيل المستندات على n - grams مختلفة. علاوة على ذلك، تتم مقارنة جميع هذه التقنيات وتقييمها على متغيرات مجموعة البيانات باستخدام مقاييس نوعية وكمية. لقد أظهرنا أيضًا نتائج هذه الأساليب من خلال طرق التصور، والرسوم البيانية التي تصور حجم التغريدات لكل موضوع، وسحب الكلمات، وتحليل علامات التصنيف التي تقدم رؤى حول أداء الخوارزميات في الموضوعات النهائية. تكشف النتائج الملحوظة أن NMF تفوقت على التقنيات مع متجهات ميزة TF - IDF على نص التغريدات الأردية بينما كان أداء LDA أفضل مع دمج استراتيجية النص القصير في مستندات زائفة طويلة.Translated Description (French)
Diverses méthodes de modélisation de sujets fournissent un moyen de comprendre et d'analyser le contenu disponible sur les plateformes de médias sociaux comme Twitter et Facebook de manière non supervisée. Cependant, malgré plusieurs techniques conventionnelles existantes, elles ont eu un succès limité lorsqu'elles sont appliquées directement pour le filtrage et la compréhension rapide du contenu de texte court en raison de la rareté du texte et du bruit. Ainsi, il a toujours été difficile de découvrir des sujets latents fiables à partir de textes de discussion en ligne qui prévalaient avec la co-occurrence de mots faibles et la disponibilité d'ensembles de données de référence de médias sociaux de grande taille, même pour les langues riches en ressources. La littérature existante manque d'un tel travail pour que le texte ourdou dévoile des sujets de niche, même avec des modèles de sujets conventionnels, principalement en raison du manque d'ensembles de données de référence, de la disponibilité limitée d'outils/ algorithmes de prétraitement et des limitations de temps et de calcul sur les ensembles de données de grande taille. Ce travail présente des expériences avec de multiples approches de modélisation de sujets comme l'analyse sémantique latente (LSA), l'analyse sémantique latente probabiliste (PLSA), l'allocation de Dirichlet latente (LDA) et la factorisation matricielle non négative (NMF) sur 0,8 million de tweets en ourdou. Ces tweets sont collectés via l'API Twitter en donnant divers hashtags comme requête pour éviter la domination d'un sujet unique dans l'ensemble de données. En outre, nous avons prétraité le texte des tweets, préparé les trois variantes de l'ensemble de données collectées et extrait plusieurs fonctionnalités pour représenter des documents sur différents n-grammes. De plus, toutes ces techniques sont comparées et évaluées sur les variantes de l'ensemble de données à l'aide de mesures qualitatives et quantitatives. Nous avons également démontré les résultats de ces approches à travers des méthodes de visualisation, des graphiques illustrant la taille des tweets par sujet, des nuages de mots et des analyses de hashtags donnant un aperçu des performances des algorithmes sur les sujets finalisés. Les résultats observés révèlent que NMF a surpassé les techniques avec les vecteurs de fonctionnalités TF-IDF sur le texte des tweets en ourdou, tandis que LDA a obtenu les meilleurs résultats en fusionnant la stratégie de texte court dans de longs pseudo-documents.Translated Description (Spanish)
Varios métodos de modelado de temas proporcionan un medio para comprender y analizar el contenido disponible en plataformas de redes sociales como Twitter y Facebook de manera no supervisada. Sin embargo, a pesar de varias técnicas convencionales existentes, han tenido un éxito limitado cuando se aplican directamente para el filtrado y la comprensión rápida de contenidos de texto corto debido a la escasez de texto y el ruido. Por lo tanto, siempre ha sido un problema descubrir temas latentes confiables a partir de textos de discusión en línea que prevalecieron con poca concurrencia de palabras y disponibilidad de conjuntos de datos de referencia de redes sociales de gran tamaño, incluso para idiomas ricos en recursos. La literatura existente carece de dicho trabajo para que el texto en urdu revele temas de nicho, incluso con modelos de temas convencionales, principalmente debido a la falta de conjuntos de datos de referencia, la disponibilidad limitada de herramientas/ algoritmos de preprocesamiento y las limitaciones de tiempo y cómputo en conjuntos de datos de gran tamaño. Este trabajo presenta experimentos con múltiples enfoques de modelado de temas como el análisis semántico latente (LSA), el análisis semántico latente probabilístico (PLSA), la asignación latente de Dirichlet (LDA) y la factorización de matrices no negativas (NMF) en 0,8 millones de tweets en urdu. Estos tweets se recopilan a través de la API de Twitter dando varios hashtags como consulta para evitar el dominio de un solo tema en el conjunto de datos. Además, hemos preprocesado el texto de los tweets, preparado las tres variantes del conjunto de datos recopilados y extraído múltiples características para representar documentos en diferentes n-gramas. Además, todas estas técnicas se comparan y evalúan en las variantes del conjunto de datos utilizando medidas cualitativas y cuantitativas. También hemos demostrado los resultados de estos enfoques a través de métodos de visualización, gráficos que representan el tamaño de los tweets por tema, nubes de palabras y análisis de hashtags que brindan información sobre el rendimiento de los algoritmos en temas finalizados. Los resultados observados revelan que NMF superó a las técnicas con vectores de características TF-IDF en el texto de los tweets en urdu, mientras que LDA tuvo un mejor rendimiento al fusionar la estrategia de texto corto en pseudodocumentos largos.Files
09536731.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:ab595184d7ef8fe2528bd1e1093c0a0e
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحليل نماذج موضوعات LDA و NMF للتغريدات الأردية عبر وضع العلامات التلقائي
- Translated title (French)
- Analyse des modèles de sujets LDA et NMF pour les tweets en ourdou via l'étiquetage automatique
- Translated title (Spanish)
- Análisis de modelos temáticos de LDA y NMF para tweets en urdu a través del etiquetado automático
Identifiers
- Other
- https://openalex.org/W3201405160
- DOI
- 10.1109/access.2021.3112620
References
- https://openalex.org/W1714665356
- https://openalex.org/W1880262756
- https://openalex.org/W1902027874
- https://openalex.org/W2004192095
- https://openalex.org/W2038043464
- https://openalex.org/W2043147077
- https://openalex.org/W2061922307
- https://openalex.org/W2064772995
- https://openalex.org/W2097089247
- https://openalex.org/W2128507180
- https://openalex.org/W2129604374
- https://openalex.org/W2130339025
- https://openalex.org/W2132052677
- https://openalex.org/W2147152072
- https://openalex.org/W2147946282
- https://openalex.org/W2151703435
- https://openalex.org/W2158266063
- https://openalex.org/W2164777277
- https://openalex.org/W2168332560
- https://openalex.org/W2178725228
- https://openalex.org/W2222893162
- https://openalex.org/W2293163851
- https://openalex.org/W2328995640
- https://openalex.org/W2352369035
- https://openalex.org/W2409439155
- https://openalex.org/W2507349564
- https://openalex.org/W2509601217
- https://openalex.org/W2516537890
- https://openalex.org/W2522581443
- https://openalex.org/W2560103719
- https://openalex.org/W2573319818
- https://openalex.org/W2574441945
- https://openalex.org/W2702896255
- https://openalex.org/W2737946880
- https://openalex.org/W2740139069
- https://openalex.org/W2745617509
- https://openalex.org/W2763261656
- https://openalex.org/W2788615138
- https://openalex.org/W2790504398
- https://openalex.org/W2790792830
- https://openalex.org/W2803437449
- https://openalex.org/W2807662642
- https://openalex.org/W2856395111
- https://openalex.org/W2903016493
- https://openalex.org/W2963959132
- https://openalex.org/W2969961168
- https://openalex.org/W2970397832
- https://openalex.org/W3010643076
- https://openalex.org/W3028873360
- https://openalex.org/W3081332416
- https://openalex.org/W3138387439
- https://openalex.org/W4233135949
- https://openalex.org/W4385682194