Published January 1, 2022 | Version v1
Publication Open

MUCIC@TamilNLP-ACL2022: Abusive Comment Detection in Tamil Language using 1D Conv-LSTM

  • 1. Instituto Politécnico Nacional
  • 2. Mangalore University

Description

Abusive language content such as hate speech, profanity, and cyberbullying etc., which is common in online platforms is creating lot of problems to the users as well as policy makers.Hence, detection of such abusive language in user-generated online content has become increasingly important over the past few years.Online platforms strive hard to moderate the abusive content to reduce societal harm, comply with laws, and create a more inclusive environment for their users.In spite of various methods to automatically detect abusive languages in online platforms, the problem still persists.To address the automatic detection of abusive languages in online platforms, this paper describes the models submitted by our team -MUCIC to the shared task on "Abusive Comment Detection in Tamil-ACL 2022".This shared task addresses the abusive comment detection in native Tamil script texts and codemixed Tamil texts.To address this challenge, two models: i) n-gram-Multilayer Perceptron (n-gram-MLP) model utilizing MLP classifier fed with char-n gram features and ii) 1D Convolutional Long Short-Term Memory (1D Conv-LSTM) model, were submitted.The n-gram-MLP model fared well among these two models with weighted F1-scores of 0.560 and 0.430 for code-mixed Tamil and native Tamil script texts, respectively.This work may be reproduced using the code available in Gthub 1 .

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

محتوى اللغة المسيئة مثل خطاب الكراهية والألفاظ النابية والتسلط عبر الإنترنت وما إلى ذلك، وهو أمر شائع في المنصات عبر الإنترنت، يخلق الكثير من المشاكل للمستخدمين وكذلك صانعي السياسات. ومع ذلك، أصبح اكتشاف مثل هذه اللغة المسيئة في المحتوى الذي ينشئه المستخدمون عبر الإنترنت مهمًا بشكل متزايد خلال السنوات القليلة الماضية. تسعى المنصات عبر الإنترنت جاهدة إلى تعديل المحتوى المسيء لتقليل الضرر المجتمعي والامتثال للقوانين وخلق بيئة أكثر شمولاً لمستخدميها. على الرغم من الطرق المختلفة للكشف التلقائي عن اللغات المسيئة في المنصات عبر الإنترنت، لا تزال المشكلة قائمة. لمعالجة الكشف التلقائي عن اللغات المسيئة في المنصات عبر الإنترنت، تصف هذه الورقة النماذج المقدمة من فريقنا - MUCIC للمهمة المشتركة حول "الكشف عن التعليقات المسيئة في Tamil - ACL 2022". تتناول هذه المهمة المشتركة الكشف عن التعليقات المسيئة في النصوص النصية التاميلية الأصلية والنصوص التاميلية المختلطة. ولمواجهة هذا التحدي، تم تقديم نموذجين: 1) نموذج n - gram - Multilayer Perceptron (n - gram - MLP) باستخدام مصنف MLP الذي يتم تغذيته بميزات char - n gram و 2) نموذج 1D Convolutional Long - Term Memory (1D Conv - LSTM). كان نموذج n - gram - MLP جيدًا بين هذان النموذجان بنقاط F1 مرجحة تبلغ 0.560 و 0.430 لنصوص النصوص التاميلية والتاميلية الأصلية المختلطة بالرمز، على التوالي. يمكن إعادة إنتاج هذا العمل باستخدام الرمز المتاح في Gthub 1 .

Translated Description (French)

Le contenu linguistique abusif tel que le discours de haine, les blasphèmes et la cyberintimidation, etc., qui est courant sur les plateformes en ligne, crée de nombreux problèmes pour les utilisateurs ainsi que pour les décideurs. Par conséquent, la détection d'un tel langage abusif dans le contenu en ligne généré par les utilisateurs est devenue de plus en plus importante au cours des dernières années. Les plateformes en ligne s'efforcent de modérer le contenu abusif pour réduire les dommages sociétaux, se conformer aux lois et créer un environnement plus inclusif pour leurs utilisateurs. Malgré diverses méthodes pour détecter automatiquement les langages abusifs sur les plateformes en ligne, le problème persiste.Pour aborder la détection automatique des langues abusives dans les plateformes en ligne, cet article décrit les modèles soumis par notre équipe -MUCIC à la tâche partagée sur la « Détection des commentaires abusifs en tamoul-ACL 2022 ».Cette tâche partagée aborde la détection des commentaires abusifs dans les textes de script tamoul natifs et les textes tamouls codemixés.Pour relever ce défi, deux modèles : i) le modèle Perceptron n-gram-Multilayer (n-gram-MLP) utilisant le classificateur MLP alimenté avec des fonctionnalités char-n gram et ii) le modèle 1D Convolutional Long Short-Term Memory (1D Conv-LSTM), ont été soumis.Le modèle n-gram-MLP s'est bien comporté parmi ces deux modèles avec des scores F1 pondérés de 0,560 et 0,430 pour les textes en écriture tamoule mélangés par code et en écriture tamoule native, respectivement. Ce travail peut être reproduit en utilisant le code disponible dans Gthub 1 .

Translated Description (Spanish)

El contenido de lenguaje abusivo, como el discurso de odio, la blasfemia y el acoso cibernético, etc., que es común en las plataformas en línea, está creando muchos problemas tanto para los usuarios como para los responsables de la formulación de políticas. Por lo tanto, la detección de dicho lenguaje abusivo en el contenido en línea generado por los usuarios se ha vuelto cada vez más importante en los últimos años. Las plataformas en línea se esfuerzan por moderar el contenido abusivo para reducir el daño social, cumplir con las leyes y crear un entorno más inclusivo para sus usuarios. A pesar de los diversos métodos para detectar automáticamente los lenguajes abusivos en las plataformas en línea, el problema aún persiste. Para abordar la detección automática de lenguajes abusivos en plataformas en línea, este documento describe los modelos presentados por nuestro equipo -MUCIC a la tarea compartida sobre "Detección de comentarios abusivos en Tamil-ACL 2022". Esta tarea compartida aborda la detección de comentarios abusivos en textos nativos de escritura tamil y textos tamiles codemixtos. Para abordar este desafío, se presentaron dos modelos: i) modelo de Perceptrón multicapa de n-gramo (n-gram-MLP) que utiliza el clasificador MLP alimentado con características de char-n gram y ii) modelo 1D Convolutional Long-Term Memory (1D Conv-LSTM). El modelo n-gram-MLP obtuvo buenos resultados entre estos dos modelos con puntuaciones F1 ponderadas de 0,560 y 0,430 para textos de escritura tamil y tamil nativa mezclados en código, respectivamente. Este trabajo puede reproducirse utilizando el código disponible en Gthub 1 .

Files

2022.dravidianlangtech-1.10.pdf.pdf

Files (245.6 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:98793dcb2d424ccb5be5f6fc96bc7fba
245.6 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
MUCIC@ TamilNLP- ACL2022: اكتشاف التعليقات المسيئة بلغة التاميل باستخدام 1D Conv - LSTM
Translated title (French)
MUCIC@ TamilNLP-ACL2022 : Détection de commentaires abusifs en langue tamoule à l'aide de 1D Conv-LSTM
Translated title (Spanish)
MUCIC@TamilNLP-ACL2022: Detección de comentarios abusivos en idioma tamil utilizando 1D Conv-LSTM

Identifiers

Other
https://openalex.org/W4285172906
DOI
10.18653/v1/2022.dravidianlangtech-1.10

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Mexico