Detecting COVID-19-Related Fake News Using Feature Extraction
- 1. Air University
- 2. University of New Brunswick
- 3. Vellore Institute of Technology University
- 4. University of Johannesburg
- 5. Comenius University Bratislava
Description
Since its emergence in December 2019, there have been numerous posts and news regarding the COVID-19 pandemic in social media, traditional print, and electronic media. These sources have information from both trusted and non-trusted medical sources. Furthermore, the news from these media are spread rapidly. Spreading a piece of deceptive information may lead to anxiety, unwanted exposure to medical remedies, tricks for digital marketing, and may lead to deadly factors. Therefore, a model for detecting fake news from the news pool is essential. In this work, the dataset which is a fusion of news related to COVID-19 that has been sourced from data from several social media and news sources is used for classification. In the first step, preprocessing is performed on the dataset to remove unwanted text, then tokenization is carried out to extract the tokens from the raw text data collected from various sources. Later, feature selection is performed to avoid the computational overhead incurred in processing all the features in the dataset. The linguistic and sentiment features are extracted for further processing. Finally, several state-of-the-art machine learning algorithms are trained to classify the COVID-19-related dataset. These algorithms are then evaluated using various metrics. The results show that the random forest classifier outperforms the other classifiers with an accuracy of 88.50%.
Translated Descriptions
Translated Description (Arabic)
منذ ظهورها في ديسمبر 2019، كان هناك العديد من المنشورات والأخبار المتعلقة بجائحة كوفيد-19 في وسائل التواصل الاجتماعي والمطبوعات التقليدية ووسائل الإعلام الإلكترونية. تحتوي هذه المصادر على معلومات من مصادر طبية موثوقة وغير موثوقة. علاوة على ذلك، تنتشر الأخبار من هذه الوسائط بسرعة. قد يؤدي نشر جزء من المعلومات الخادعة إلى القلق والتعرض غير المرغوب فيه للعلاجات الطبية والحيل للتسويق الرقمي وقد يؤدي إلى عوامل مميتة. لذلك، من الضروري وجود نموذج للكشف عن الأخبار المزيفة من مجموعة الأخبار. في هذا العمل، يتم استخدام مجموعة البيانات التي هي مزيج من الأخبار المتعلقة بـ COVID -19 والتي تم الحصول عليها من بيانات من العديد من وسائل التواصل الاجتماعي ومصادر الأخبار للتصنيف. في الخطوة الأولى، يتم إجراء المعالجة المسبقة على مجموعة البيانات لإزالة النص غير المرغوب فيه، ثم يتم إجراء الترميز لاستخراج الرموز من بيانات النص الخام التي تم جمعها من مصادر مختلفة. في وقت لاحق، يتم إجراء اختيار الميزة لتجنب النفقات العامة الحسابية المتكبدة في معالجة جميع الميزات في مجموعة البيانات. يتم استخراج السمات اللغوية والمشاعر لمزيد من المعالجة. أخيرًا، تم تدريب العديد من خوارزميات التعلم الآلي الحديثة على تصنيف مجموعة البيانات المتعلقة بـ COVID -19. ثم يتم تقييم هذه الخوارزميات باستخدام مقاييس مختلفة. تظهر النتائج أن المصنف العشوائي للغابات يتفوق على المصنفات الأخرى بدقة 88.50 ٪.Translated Description (French)
Depuis son émergence en décembre 2019, de nombreux articles et nouvelles concernant la pandémie de COVID-19 ont été publiés dans les médias sociaux, la presse écrite traditionnelle et les médias électroniques. Ces sources ont des informations provenant de sources médicales fiables et non fiables. De plus, les nouvelles de ces médias se propagent rapidement. La diffusion d'une information trompeuse peut entraîner de l'anxiété, une exposition indésirable à des remèdes médicaux, des astuces pour le marketing numérique et des facteurs mortels. Par conséquent, un modèle de détection des fausses nouvelles du pool de nouvelles est essentiel. Dans ce travail, l'ensemble de données qui est une fusion des nouvelles liées à la COVID-19 provenant de données provenant de plusieurs médias sociaux et sources d'information est utilisé pour la classification. Dans la première étape, un prétraitement est effectué sur l'ensemble de données pour supprimer le texte indésirable, puis une tokenisation est effectuée pour extraire les jetons des données de texte brutes collectées à partir de diverses sources. Plus tard, la sélection de caractéristiques est effectuée pour éviter les frais généraux de calcul encourus lors du traitement de toutes les caractéristiques de l'ensemble de données. Les caractéristiques linguistiques et sentimentales sont extraites pour un traitement ultérieur. Enfin, plusieurs algorithmes d'apprentissage automatique de pointe sont formés pour classer l'ensemble de données liées à la COVID-19. Ces algorithmes sont ensuite évalués à l'aide de diverses métriques. Les résultats montrent que le classificateur forestier aléatoire surpasse les autres classificateurs avec une précision de 88,50 %.Translated Description (Spanish)
Desde su aparición en diciembre de 2019, ha habido numerosas publicaciones y noticias sobre la pandemia de COVID-19 en las redes sociales, la prensa tradicional y los medios electrónicos. Estas fuentes tienen información de fuentes médicas confiables y no confiables. Además, las noticias de estos medios se difunden rápidamente. Difundir una información engañosa puede provocar ansiedad, exposición no deseada a remedios médicos, trucos para el marketing digital y puede conducir a factores mortales. Por lo tanto, es esencial un modelo para detectar noticias falsas del grupo de noticias. En este trabajo, el conjunto de datos, que es una fusión de noticias relacionadas con COVID-19 que se ha obtenido de datos de varias redes sociales y fuentes de noticias, se utiliza para la clasificación. En el primer paso, se realiza un preprocesamiento en el conjunto de datos para eliminar el texto no deseado, luego se lleva a cabo la tokenización para extraer los tokens de los datos de texto sin procesar recopilados de varias fuentes. Más tarde, se realiza la selección de características para evitar la sobrecarga computacional incurrida en el procesamiento de todas las características del conjunto de datos. Las características lingüísticas y sentimentales se extraen para su posterior procesamiento. Por último, varios algoritmos de aprendizaje automático de última generación están capacitados para clasificar el conjunto de datos relacionados con COVID-19. Estos algoritmos se evalúan utilizando varias métricas. Los resultados muestran que el clasificador de bosque aleatorio supera a los otros clasificadores con una precisión del 88,50%.Files
pdf.pdf
Files
(1.5 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:6f74e58eaf13a0b4877747653dfd459f
|
1.5 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- الكشف عن الأخبار المزيفة المتعلقة بـ COVID -19 باستخدام استخراج الميزات
- Translated title (French)
- Détecter les fausses nouvelles liées au COVID-19 à l'aide de l'extraction de fonctionnalités
- Translated title (Spanish)
- Detección de noticias falsas relacionadas con COVID-19 mediante la extracción de funciones
Identifiers
- Other
- https://openalex.org/W4205892035
- DOI
- 10.3389/fpubh.2021.788074
References
- https://openalex.org/W1993132138
- https://openalex.org/W2012969172
- https://openalex.org/W2020957915
- https://openalex.org/W2122111042
- https://openalex.org/W2887534813
- https://openalex.org/W2980986395
- https://openalex.org/W2981513130
- https://openalex.org/W3001869580
- https://openalex.org/W3011249019
- https://openalex.org/W3011445852
- https://openalex.org/W3011594683
- https://openalex.org/W3013473577
- https://openalex.org/W3013736905
- https://openalex.org/W3017050370
- https://openalex.org/W3017855299
- https://openalex.org/W3019283372
- https://openalex.org/W3019584897
- https://openalex.org/W3021303430
- https://openalex.org/W3024608323
- https://openalex.org/W3024718104
- https://openalex.org/W3030953462
- https://openalex.org/W3035503061
- https://openalex.org/W3036846914
- https://openalex.org/W3038780555
- https://openalex.org/W3044590592
- https://openalex.org/W3046489877
- https://openalex.org/W3085990892
- https://openalex.org/W3121371976
- https://openalex.org/W4245639997
- https://openalex.org/W4248437541
- https://openalex.org/W4256055854
- https://openalex.org/W4394672066