Cyberbullying detection: advanced preprocessing techniques & deep learning architecture for Roman Urdu data
- 1. Mehran University of Engineering and Technology
Description
Social media have become a very viable medium for communication, collaboration, exchange of information, knowledge, and ideas. However, due to anonymity preservation, the incidents of hate speech and cyberbullying have been diversified across the globe. This intimidating problem has recently sought the attention of researchers and scholars worldwide and studies have been undertaken to formulate solution strategies for automatic detection of cyberaggression and hate speech, varying from machine learning models with vast features to more complex deep neural network models and different SN platforms. However, the existing research is directed towards mature languages and highlights a huge gap in newly embraced resource poor languages. One such language that has been recently adopted worldwide and more specifically by south Asian countries for communication on social media is Roman Urdu i-e Urdu language written using Roman scripting. To address this research gap, we have performed extensive preprocessing on Roman Urdu microtext. This typically involves formation of Roman Urdu slang- phrase dictionary and mapping slangs after tokenization. We have also eliminated cyberbullying domain specific stop words for dimensionality reduction of corpus. The unstructured data were further processed to handle encoded text formats and metadata/non-linguistic features. Furthermore, we performed extensive experiments by implementing RNN-LSTM, RNN-BiLSTM and CNN models varying epochs executions, model layers and tuning hyperparameters to analyze and uncover cyberbullying textual patterns in Roman Urdu. The efficiency and performance of models were evaluated using different metrics to present the comparative analysis. Results highlight that RNN-LSTM and RNN-BiLSTM performed best and achieved validation accuracy of 85.5 and 85% whereas F1 score was 0.7 and 0.67 respectively over aggression class.
Translated Descriptions
Translated Description (Arabic)
أصبحت وسائل التواصل الاجتماعي وسيلة قابلة للتطبيق للتواصل والتعاون وتبادل المعلومات والمعرفة والأفكار. ومع ذلك، بسبب الحفاظ على سرية الهوية، تنوعت حوادث خطاب الكراهية والتسلط عبر الإنترنت في جميع أنحاء العالم. اجتذبت هذه المشكلة المخيفة مؤخرًا انتباه الباحثين والباحثين في جميع أنحاء العالم، وقد أجريت دراسات لصياغة استراتيجيات حلول للكشف التلقائي عن العدوان الإلكتروني وخطاب الكراهية، والتي تختلف من نماذج التعلم الآلي ذات الميزات الواسعة إلى نماذج الشبكات العصبية العميقة الأكثر تعقيدًا ومنصات SN المختلفة. ومع ذلك، فإن البحث الحالي موجه نحو اللغات الناضجة ويسلط الضوء على فجوة كبيرة في اللغات الفقيرة بالموارد التي تم تبنيها حديثًا. إحدى هذه اللغات التي تم تبنيها مؤخرًا في جميع أنحاء العالم وبشكل أكثر تحديدًا من قبل دول جنوب آسيا للتواصل على وسائل التواصل الاجتماعي هي اللغة الرومانية الأردية المكتوبة باستخدام البرمجة النصية الرومانية. لمعالجة هذه الفجوة البحثية، أجرينا معالجة مسبقة مكثفة على النص المصغر الروماني الأوردو. يتضمن هذا عادةً تكوين قاموس الكلمات العامية الأوردو الرومانية ورسم خرائط الكلمات العامية بعد الترميز. لقد أزلنا أيضًا كلمات التوقف الخاصة بمجال التنمر الإلكتروني لتقليل أبعاد الجسم. تمت معالجة البيانات غير المهيكلة بشكل أكبر للتعامل مع تنسيقات النصوص المشفرة والبيانات الوصفية/الميزات غير اللغوية. علاوة على ذلك، أجرينا تجارب مكثفة من خلال تنفيذ نماذج RNN - LSTM و RNN - BiLSTM و CNN المختلفة لعمليات إعدام الحقب وطبقات النماذج والمعلمات الفائقة المضبوطة لتحليل وكشف الأنماط النصية للتنمر الإلكتروني باللغة الأوردو الرومانية. تم تقييم كفاءة وأداء النماذج باستخدام مقاييس مختلفة لتقديم التحليل المقارن. تسلط النتائج الضوء على أن أداء RNN - LSTM و RNN - BiLSTM كان أفضل وحقق دقة تحقق بلغت 85.5 و 85 ٪ في حين كانت درجة F1 0.7 و 0.67 على التوالي على فئة العدوان.Translated Description (French)
Les médias sociaux sont devenus un moyen très viable de communication, de collaboration, d'échange d'informations, de connaissances et d'idées. Cependant, en raison de la préservation de l'anonymat, les incidents de discours de haine et de cyberintimidation ont été diversifiés à travers le monde. Ce problème intimidant a récemment attiré l'attention des chercheurs et des universitaires du monde entier et des études ont été entreprises pour formuler des stratégies de solution pour la détection automatique de la cyberagression et du discours de haine, allant des modèles d'apprentissage automatique avec de vastes fonctionnalités aux modèles de réseaux neuronaux profonds plus complexes et aux différentes plates-formes SN. Cependant, la recherche existante est orientée vers les langues matures et met en évidence une énorme lacune dans les langues pauvres en ressources nouvellement adoptées. Une de ces langues qui a été récemment adoptée dans le monde entier et plus spécifiquement par les pays d'Asie du Sud pour la communication sur les médias sociaux est l'ourdou romain i-e ourdou écrit en utilisant l'écriture romaine. Pour combler cette lacune de recherche, nous avons effectué un prétraitement approfondi sur du microtexte romain ourdou. Cela implique généralement la formation d'un dictionnaire de phrases d'argot romain ourdou et la cartographie des argots après la tokenisation. Nous avons également éliminé les mots d'arrêt spécifiques au domaine de la cyberintimidation pour la réduction de la dimensionnalité du corpus. Les données non structurées ont ensuite été traitées pour gérer les formats de texte codés et les métadonnées/caractéristiques non linguistiques. En outre, nous avons effectué des expériences approfondies en mettant en œuvre des modèles RNN-LSTM, RNN-BiLSTM et CNN à différentes époques d'exécution, des couches de modèles et des hyperparamètres de réglage pour analyser et découvrir des modèles textuels de cyberintimidation en ourdou romain. L'efficacité et la performance des modèles ont été évaluées à l'aide de différents paramètres pour présenter l'analyse comparative. Les résultats soulignent que RNN-LSTM et RNN-BiLSTM ont obtenu les meilleurs résultats et ont atteint une précision de validation de 85,5 et 85 %, tandis que le score F1 était respectivement de 0,7 et 0,67 sur la classe d'agression.Translated Description (Spanish)
Las redes sociales se han convertido en un medio muy viable para la comunicación, la colaboración, el intercambio de información, el conocimiento y las ideas. Sin embargo, debido a la preservación del anonimato, los incidentes de discurso de odio y acoso cibernético se han diversificado en todo el mundo. Este problema intimidante ha llamado recientemente la atención de investigadores y académicos de todo el mundo y se han realizado estudios para formular estrategias de solución para la detección automática de la ciberagresión y el discurso de odio, que van desde modelos de aprendizaje automático con vastas características hasta modelos de redes neuronales profundas más complejos y diferentes plataformas SN. Sin embargo, la investigación existente está dirigida a los idiomas maduros y destaca una gran brecha en los idiomas de escasos recursos recientemente adoptados. Uno de esos idiomas que se ha adoptado recientemente en todo el mundo y más específicamente en los países del sur de Asia para la comunicación en las redes sociales es el urdu romano, es decir, el idioma urdu escrito con escritura romana. Para abordar esta brecha de investigación, hemos realizado un extenso preprocesamiento en microtexto en urdu romano. Esto generalmente implica la formación de un diccionario de frases de argot en urdu romano y el mapeo de argot después de la tokenización. También hemos eliminado las palabras de parada específicas del dominio del ciberacoso para la reducción de la dimensionalidad del corpus. Los datos no estructurados se procesaron adicionalmente para manejar formatos de texto codificados y metadatos/características no lingüísticas. Además, realizamos extensos experimentos mediante la implementación de modelos RNN-LSTM, RNN-BiLSTM y CNN que varían las ejecuciones de épocas, las capas de modelos y los hiperparámetros de ajuste para analizar y descubrir patrones textuales de ciberacoso en urdu romano. La eficiencia y el rendimiento de los modelos se evaluaron utilizando diferentes métricas para presentar el análisis comparativo. Los resultados destacan que RNN-LSTM y RNN-BiLSTM se desempeñaron mejor y lograron una precisión de validación de 85.5 y 85%, mientras que la puntuación F1 fue de 0.7 y 0.67 respectivamente sobre la clase de agresión.Files
s40537-021-00550-7.pdf
Files
(2.1 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:15e994f51fefa542c8c506be7a193466
|
2.1 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- الكشف عن التنمر الإلكتروني: تقنيات متقدمة للمعالجة المسبقة وبنية التعلم العميق للبيانات الرومانية الأردية
- Translated title (French)
- Détection de la cyberintimidation : techniques de prétraitement avancées et architecture d'apprentissage en profondeur pour les données romaines en ourdou
- Translated title (Spanish)
- Detección de ciberacoso: técnicas avanzadas de preprocesamiento y arquitectura de aprendizaje profundo para datos en urdu romano
Identifiers
- Other
- https://openalex.org/W4200127519
- DOI
- 10.1186/s40537-021-00550-7
References
- https://openalex.org/W2014545475
- https://openalex.org/W2209227144
- https://openalex.org/W2766857497
- https://openalex.org/W2784010253
- https://openalex.org/W2789671692
- https://openalex.org/W2798620412
- https://openalex.org/W2805807672
- https://openalex.org/W2912431116
- https://openalex.org/W2941799245
- https://openalex.org/W2963119602
- https://openalex.org/W2995484715
- https://openalex.org/W3013437827
- https://openalex.org/W3049310425
- https://openalex.org/W3092739266
- https://openalex.org/W3094615924
- https://openalex.org/W3096295776
- https://openalex.org/W3144206916
- https://openalex.org/W3174551751
- https://openalex.org/W3208463727
- https://openalex.org/W4205382263