Published December 5, 2022 | Version v1
Publication Open

Peer Review #1 of "Multi-label multi-class COVID-19 Arabic Twitter dataset with fine-grained misinformation and situational information annotations (v0.1)"

  • 1. Jordan University of Science and Technology

Description

Since the inception of the current COVID-19 pandemic, related misleading information has spread remarkably on social media leading to serious implications for individuals and societies.Although COVID-19 looks to be ending for most places after the sharp shock of Omicron, severe new variants can emerge and cause new waves, especially if the variants can evade the insufficient immunity provided by prior infection and incomplete vaccination.Fighting the fake news that promotes vaccine hesitancy, for instance, is crucial for the success of the global vaccination programs and thus achieving herd immunity.To combat the proliferation of COVID-19-related misinformation, considerable research efforts have been and are still being dedicated to building and sharing COVID-19 misinformation detection datasets and models for Arabic and other languages.However, most of these datasets provide binary (true/false) misinformation classifications.Besides, the few studies that support multi-class misinformation classification deal with a small set of misinformation classes or mix them with situational information classes.False news stories about COVID-19 are not equal; some tend to have more sinister effects than others (e.g., fake cures and False vaccine Info).This suggests that identifying the sub-type of misinformation is critical for choosing the suitable action based on their level of seriousness, ranging from assigning warning labels to the susceptible post to removing the misleading post instantly.We develop comprehensive annotation guidelines in this work that define 19 fine-grained misinformation classes.Then, we release the first Arabic COVID-19-related misinformation dataset comprising about 6.7k tweets with multi-class and multi-label misinformation annotations.In addition, we release a version of the dataset to be the first Twitter Arabic dataset annotated exclusively with six different situational information classes.Identifying situational information (e.g., caution, help-seeking) helps authorities or individuals understand the situation during emergencies.To confirm the validity of the collected data, we define three classification tasks and experiment with various Machine Learning and transformer-based classifiers to offer baseline results for

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

منذ بداية جائحة كوفيد-19 الحالية، انتشرت المعلومات المضللة ذات الصلة بشكل ملحوظ على وسائل التواصل الاجتماعي مما أدى إلى آثار خطيرة على الأفراد والمجتمعات. على الرغم من أن كوفيد-19 يبدو أنه سينتهي في معظم الأماكن بعد الصدمة الحادة لأوميكرون، يمكن أن تظهر متغيرات جديدة شديدة وتسبب موجات جديدة، خاصة إذا كانت المتغيرات يمكن أن تتهرب من المناعة غير الكافية التي توفرها العدوى السابقة والتطعيم غير الكامل. مكافحة الأخبار المزيفة التي تعزز التردد في اللقاح، على سبيل المثال، أمر بالغ الأهمية لنجاح العالم برامج التطعيم وبالتالي تحقيق مناعة القطيع. لمكافحة انتشار المعلومات المضللة المتعلقة بـ COVID -19، تم تكريس جهود بحثية كبيرة ولا تزال مكرسة لبناء ومشاركة مجموعات بيانات ونماذج الكشف عن المعلومات المضللة لـ COVID -19 للغة العربية واللغات الأخرى. ومع ذلك، فإن معظم مجموعات البيانات هذه توفر تصنيفات معلومات مضللة ثنائية (صحيحة/خاطئة). إلى جانب ذلك، فإن الدراسات القليلة التي تدعم تصنيف المعلومات المضللة متعددة الفئات تتعامل مع مجموعة صغيرة من فصول المعلومات المضللة أو تمزجها مع فصول المعلومات الظرفية. القصص الإخبارية الكاذبة حول COVID -19 ليست متساوية ؛ بعضها يميل إلى أن يكون له آثار شريرة أكثر من غيرها (على سبيل المثال، العلاجات المزيفة ومعلومات اللقاح الخاطئ) .وهذا يشير إلى أن تحديد النوع الفرعي للمعلومات المضللة أمر بالغ الأهمية لاختيار الإجراء المناسب بناءً على مستوى خطورته، بدءًا من تعيين ملصقات التحذير إلى المنشور القابل للتضليل لإزالة المنشور المضلل على الفور .نضع إرشادات توضيحية شاملة في هذا العمل تحدد 19 فئة معلومات مضللة دقيقة .ثم، نصدر أول مجموعة بيانات معلومات مضللة عربية متعلقة بـ COVID -19 تضم حوالي 6.7 ألف تغريدة مع تعليقات توضيحية للمعلومات المضللة متعددة الطبقات ومتعددة العلامات .وبالإضافة إلى ذلك، نصدر نسخة من مجموعة البيانات لتكون أول مجموعة بيانات عربية على تويتر مشروحة حصريًا بست فئات معلومات ظرفية مختلفة .يساعد تحديد المعلومات الظرفية (على سبيل المثال، الحذر، طلب المساعدة) السلطات أو الأفراد على فهم الموقف أثناء حالات الطوارئ .لتأكيد صحة البيانات التي تم جمعها، نحدد ثلاث مهام تصنيف وتجربة مختلف المصنفات القائمة على التعلم الآلي والمحول لتقديم نتائج أساسية لخط الأساس

Translated Description (French)

Depuis le début de la pandémie actuelle de COVID-19, des informations trompeuses connexes se sont répandues de manière remarquable sur les médias sociaux, entraînant de graves implications pour les individus et les sociétés.Bien que la COVID-19 semble se terminer pour la plupart des endroits après le choc brutal d'Omicron, de nouvelles variantes graves peuvent émerger et provoquer de nouvelles vagues, en particulier si les variantes peuvent échapper à l'immunité insuffisante fournie par une infection antérieure et une vaccination incomplète.La lutte contre les fausses nouvelles qui favorisent l'hésitation vaccinale, par exemple, est cruciale pour le succès du programme mondial programmes de vaccination et ainsi atteindre l'immunité collective.Pour lutter contre la prolifération de la désinformation liée à la COVID-19, des efforts de recherche considérables ont été et sont toujours consacrés à la construction et au partage d'ensembles de données et de modèles de détection de la désinformation COVID-19 pour l'arabe et d'autres langues.Toutefois, la plupart de ces ensembles de données fournissent des classifications de désinformation binaires (vrai/faux ).En outre, les quelques études qui soutiennent la classification de la désinformation multi-classes traitent d'un petit ensemble de classes de désinformation ou les mélangent avec des classes d'information situationnelle.Les fausses nouvelles sur la COVID-19 ne sont pas égales ; certaines ont tendance à avoir des effets plus sinistres que d'autres (par exemple, les faux remèdes et False vaccine Info). Cela suggère que l'identification du sous-type de désinformation est essentielle pour choisir l'action appropriée en fonction de leur niveau de gravité, allant de l'attribution d'étiquettes d'avertissement au message sensible à la suppression instantanée du message trompeur. Nous développons des directives d'annotation complètes dans ce travail qui définissent 19 classes de désinformation à grain fin. Ensuite, nous publions le premier ensemble de données de désinformation en arabe sur le COVID-19 comprenant environ 6,7k tweets avec des annotations de désinformation multi-classes et multi-étiquettes. En outre, nous publions une version de l'ensemble de données pour être le premier ensemble de données en arabe Twitter annoté exclusivement avec six classes d'informations situationnelles différentes. Identifier les informations situationnelles (par exemple, prudence, recherche d'aide) aide les autorités ou les individus à comprendre la situation en cas d'urgence. Pour confirmer la validité des données collectées, nous définissons trois tâches de classification et expérimentons avec divers classificateurs basés sur l'apprentissage automatique et les transformateurs pour offrir des résultats de base pour

Translated Description (Spanish)

Desde el inicio de la actual pandemia de COVID-19, la información engañosa relacionada se ha extendido notablemente en las redes sociales, lo que ha tenido graves implicaciones para las personas y las sociedades. Aunque COVID-19 parece estar terminando en la mayoría de los lugares después del fuerte shock de Omicron, pueden surgir nuevas variantes graves y causar nuevas olas, especialmente si las variantes pueden evadir la inmunidad insuficiente proporcionada por la infección previa y la vacunación incompleta. Combatir las noticias falsas que promueven la vacilación de la vacuna, por ejemplo, es crucial para el éxito de la programas de vacunación y, por lo tanto, lograr la inmunidad colectiva. Para combatir la proliferación de información errónea relacionada con COVID-19, se han dedicado y se siguen dedicando considerables esfuerzos de investigación a crear y compartir conjuntos de datos y modelos de detección de información errónea de COVID-19 para el árabe y otros idiomas. Sin embargo, la mayoría de estos conjuntos de datos proporcionan clasificaciones binarias de información errónea (verdadero/falso). Además, los pocos estudios que respaldan la clasificación de información errónea de múltiples clases tratan con un pequeño conjunto de clases de información errónea o los mezclan con clases de información situacional. Las noticias falsas sobre COVID-19 no son iguales; algunos tienden a tener efectos más siniestros que otros (por ejemplo, curas falsas e información falsa sobre la vacuna). Esto sugiere que identificar el subtipo de información errónea es fundamental para elegir la acción adecuada en función de su nivel de gravedad, que va desde asignar etiquetas de advertencia a la publicación susceptible hasta eliminar la publicación engañosa al instante. Desarrollamos pautas de anotación integrales en este trabajo que definen 19 clases de información errónea de grano fino. Luego, lanzamos el primer conjunto de datos de información errónea relacionada con COVID-19 en árabe que comprende aproximadamente 6.7k tweets con anotaciones de información errónea de múltiples clases y etiquetas múltiples. Además, lanzamos una versión del conjunto de datos para ser el primer conjunto de datos en árabe de Twitter anotado exclusivamente con seis clases de información situacional diferentes. Identificar la información situacional (por ejemplo, precaución, búsqueda de ayuda) ayuda a las autoridades o personas a comprender la situación durante las emergencias. Para confirmar la validez de los datos recopilados, definimos tres tareas de clasificación y experimentamos con varios clasificadores basados en transformadores y aprendizaje automático para ofrecer resultados de referencia para

Files

submission.pdf

Files (4.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:026ed289b163d90cd1faa24c47713d25
4.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مراجعة الأقران رقم1 من "مجموعة بيانات تويتر العربية متعددة الفئات لكوفيد-19 مع معلومات مضللة دقيقة وتعليقات توضيحية للمعلومات الظرفية (v0.1 )"
Translated title (French)
Examen par les pairs n °1 de « Ensemble de données multi-étiquettes multi-classes COVID-19 en arabe sur Twitter avec des informations erronées à grain fin et des annotations d'informations situationnelles (v0.1) »
Translated title (Spanish)
Revisión por pares n .º1 de "Conjunto de datos de Twitter en árabe sobre COVID-19 de múltiples clases y múltiples etiquetas con información errónea detallada y anotaciones de información situacional (v0.1)"

Identifiers

Other
https://openalex.org/W4312061114
DOI
10.7287/peerj-cs.1151v0.1/reviews/1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Jordan