Published January 1, 2023 | Version v1
Publication Open

Comparative analysis of TF-IDF and loglikelihood method for keywords extraction of twitter data

  • 1. Khwaja Fareed University of Engineering and Information Technology
  • 2. Islamia University of Bahawalpur

Description

Twitter has become the foremost standard of social media in today's world. Over 335 million users are online monthly, and near about 80% are accessing it through their mobiles. Further, Twitter is now supporting 35+ which enhance its usage too much. It facilitates people having different languages. Near about 21% of the total users are from US and 79% of total users are outside of US. A tweet is restricted to a hundred and forty characters; hence it contains such information which is more concise and much valuable. Due to its usage, it is estimated that five hundred million tweets are sent per day by different categories of people including teacher, students, celebrities, officers, musician, etc. So, there is a huge amount of data that is increasing on a daily basis that need to be categorized. The important key feature is to find the keywords in the huge data that is helpful for identifying a twitter for classification. For this purpose, Term Frequency-Inverse Document Frequency (TF-IDF) and Loglikelihood methods are chosen for keywords extracted from the music field and perform a comparative analysis on both results. In the end, relevance is performed from 5 users so that finally we can take a decision to make assumption on the basis of experiments that which method is best. This analysis is much valuable because it gives a more accurate estimation which method's results are more reliable.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

أصبح تويتر المعيار الأول لوسائل التواصل الاجتماعي في عالم اليوم. أكثر من 335 مليون مستخدم على الإنترنت شهريًا، وحوالي 80 ٪ منهم يصلون إليه عبر هواتفهم المحمولة. علاوة على ذلك، يدعم تويتر الآن أكثر من 35 مما يعزز استخدامه أكثر من اللازم. إنه يسهل على الأشخاص الذين لديهم لغات مختلفة. ما يقرب من 21 ٪ من إجمالي المستخدمين هم من الولايات المتحدة و 79 ٪ من إجمالي المستخدمين هم خارج الولايات المتحدة. تقتصر التغريدة على مائة وأربعين حرفًا ؛ وبالتالي فهي تحتوي على معلومات أكثر إيجازًا وقيمة بكثير. بسبب استخدامه، تشير التقديرات إلى أنه يتم إرسال خمسمائة مليون تغريدة يوميًا من قبل فئات مختلفة من الأشخاص بما في ذلك المعلمين والطلاب والمشاهير والضباط والموسيقيين وما إلى ذلك. لذلك، هناك كمية هائلة من البيانات التي تتزايد على أساس يومي والتي تحتاج إلى تصنيف. الميزة الرئيسية المهمة هي العثور على الكلمات الرئيسية في البيانات الضخمة التي تساعد في تحديد تويتر للتصنيف. لهذا الغرض، يتم اختيار طرق تكرار الوثيقة العكسي للتردد المصطلحي (TF - IDF) و Loglikelihood للكلمات الرئيسية المستخرجة من مجال الموسيقى وإجراء تحليل مقارن لكلتا النتيجتين. في النهاية، يتم إجراء الملاءمة من 5 مستخدمين حتى نتمكن أخيرًا من اتخاذ قرار بالافتراض على أساس التجارب التي هي الطريقة الأفضل. هذا التحليل ذو قيمة كبيرة لأنه يعطي تقديرًا أكثر دقة لنتائج الطريقة الأكثر موثوقية.

Translated Description (French)

Twitter est devenu la norme la plus élevée des médias sociaux dans le monde d'aujourd' hui. Plus de 335 millions d'utilisateurs sont en ligne chaque mois, et près de 80 % y accèdent via leurs mobiles. De plus, Twitter prend maintenant en charge plus de 35, ce qui améliore trop son utilisation. Cela facilite les personnes ayant des langues différentes. Près de 21 % du total des utilisateurs viennent des États-Unis et 79 % du total des utilisateurs sont à l'extérieur des États-Unis. Un tweet est limité à cent quarante caractères ; il contient donc de telles informations qui sont plus concises et beaucoup plus précieuses. En raison de son utilisation, on estime que cinq cents millions de tweets sont envoyés par jour par différentes catégories de personnes, y compris les enseignants, les étudiants, les célébrités, les officiers, les musiciens, etc. Il y a donc une énorme quantité de données qui augmente quotidiennement et qui doivent être catégorisées. La caractéristique clé importante est de trouver les mots-clés dans les énormes données qui sont utiles pour identifier un twitter à classer. À cette fin, les méthodes Term Frequency-Inverse Document Frequency (TF-IDF) et Loglikelihood sont choisies pour les mots-clés extraits du domaine de la musique et effectuent une analyse comparative sur les deux résultats. En fin de compte, la pertinence est réalisée à partir de 5 utilisateurs afin que nous puissions finalement prendre la décision de supposer, sur la base d'expériences, quelle méthode est la meilleure. Cette analyse est très précieuse car elle donne une estimation plus précise des résultats de la méthode qui sont plus fiables.

Translated Description (Spanish)

Twitter se ha convertido en el principal estándar de las redes sociales en el mundo actual. Más de 335 millones de usuarios están en línea mensualmente, y cerca del 80% acceden a ella a través de sus móviles. Además, Twitter ahora admite a mayores de 35años, lo que mejora demasiado su uso. Facilita que las personas tengan diferentes idiomas. Cerca del 21% del total de usuarios son de EE. UU. y el 79% del total de usuarios están fuera de EE. UU. Un tweet está restringido a ciento cuarenta caracteres; por lo tanto, contiene información que es más concisa y mucho más valiosa. Debido a su uso, se estima que quinientos millones de tweets son enviados por día por diferentes categorías de personas, incluyendo maestros, estudiantes, celebridades, oficiales, músicos, etc. Por lo tanto, hay una gran cantidad de datos que aumentan a diario y que deben clasificarse. La característica clave importante es encontrar las palabras clave en los datos masivos que son útiles para identificar un twitter para la clasificación. Para este propósito, se eligen los métodos Term Frequency-Inverse Document Frequency (TF-IDF) y Loglikikely para las palabras clave extraídas del campo de la música y se realiza un análisis comparativo de ambos resultados. Al final, la relevancia se realiza a partir de 5 usuarios para que finalmente podamos tomar la decisión de hacer una suposición sobre la base de experimentos de qué método es el mejor. Este análisis es muy valioso porque proporciona una estimación más precisa de qué resultados del método son más confiables.

Files

666.pdf

Files (184.2 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:991b92c931b30f54fb205455eabbf377
184.2 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تحليل مقارن لـ TF - IDF وطريقة loglikelihood لاستخراج الكلمات الرئيسية لبيانات تويتر
Translated title (French)
Analyse comparative de TF-IDF et méthode de vraisemblance pour l'extraction de mots-clés des données Twitter
Translated title (Spanish)
Análisis comparativo de TF-IDF y método de loglikikely para la extracción de palabras clave de datos de twitter

Identifiers

Other
https://openalex.org/W4313394230
DOI
10.22581/muet1982.2301.09

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan