Development of computational linguistic resources for automated detection of textual cyberbullying threats in Roman Urdu language
Creators
- 1. Mehran University of Engineering and Technology
Description
Automatic Cyberbullying detection has remained very challenging task since social media content and conversations are usually posted in unstructured free-text form leaving behind the language norms.The major concern and gap in formulating cyberbullying detection strategies is scarcity of available linguistic resources typically for newly evolved languages.Roman Urdu has recently emerged and hence is a resource poor language.Urdu has been widely known as the national language of Pakistan.However, because of socio-cultural and multilingual aspects, Roman Urdu is used widely on the Internet by Asians and more specifically Pakistanis.To fulfil the above stated gap, this research work presents guidelines for data annotation process and developed two linguistic resources: (i) Annotated corpus in Roman Urdu Language for cyberaggression and offensive language detection.The process of data annotation involved bilingual annotators instead of crowdsourcing.It has the benefit of correctly annotating instances that constitute clear cases of cyberbullying without compromising data quality.The developed corpus is highly balanced (with almost negligible skew) unlike most of the existing corpuses even in mature languages.(ii) Processing textual information for NLP tasks involves Stop-word elimination as a sub phase.Stop words carry least semantic information and increase feature space as compared to the other tokens and index terms in corpora.We have developed domain specific stop words for Roman Urdu Language considering all the lexical variants and typically in the context of aggression detection and collected data.The work has been carried out using python programming language and Pycharm IDE.
Translated Descriptions
Translated Description (Arabic)
ظل الكشف التلقائي عن التنمر عبر الإنترنت مهمة صعبة للغاية حيث يتم نشر محتوى وسائل التواصل الاجتماعي والمحادثات عادة في شكل نص حر غير منظم تاركًا وراءه معايير اللغة. يتمثل الشاغل والفجوة الرئيسية في صياغة استراتيجيات الكشف عن التنمر عبر الإنترنت في ندرة الموارد اللغوية المتاحة عادةً للغات المتطورة حديثًا. ظهرت اللغة الأوردو الرومانية مؤخرًا وبالتالي فهي لغة فقيرة الموارد. عُرفت اللغة الأوردو على نطاق واسع بأنها اللغة الوطنية لباكستان. ومع ذلك، وبسبب الجوانب الاجتماعية والثقافية ومتعددة اللغات، يستخدم الأوردو الروماني على نطاق واسع على الإنترنت من قبل الآسيويين وبشكل أكثر تحديدًا الباكستانيين. لسد الفجوة المذكورة أعلاه، يقدم هذا العمل البحثي إرشادات لعملية التعليق التوضيحي للبيانات وطور مصدرين لغويين: (1) مجموعة مشروحة باللغة الأوردو الرومانية للعدوان السيبراني والكشف عن اللغة المسيئة. تضمنت عملية التعليق التوضيحي للبيانات شروحًا ثنائية اللغة بدلاً من التعهيد الجماعي. إنها تستفيد من حالات التعليق التوضيحي الصحيحة التي تشكل حالات واضحة من التنمر عبر الإنترنت دون المساس بجودة البيانات. المجموعة المطورة متوازنة للغاية (مع انحراف لا يكاد يذكر) على عكس معظم المجموعات الموجودة حتى في اللغات الناضجة.(2) معالجة المعلومات النصية للبرمجة اللغوية العصبية تتضمن المهام حذف كلمة التوقف كمرحلة فرعية. تحمل كلمات التوقف أقل المعلومات الدلالية وتزيد من مساحة الميزات مقارنة بالرموز المميزة الأخرى ومصطلحات الفهرس في الشركات. لقد طورنا كلمات توقف خاصة بالمجال للغة الأوردو الرومانية مع الأخذ في الاعتبار جميع المتغيرات المعجمية وعادة في سياق الكشف عن العدوان والبيانات المجمعة. تم تنفيذ العمل باستخدام لغة برمجة بايثون و Pycharm IDE.Translated Description (French)
La détection automatique de la cyberintimidation est restée une tâche très difficile car le contenu et les conversations des médias sociaux sont généralement publiés sous forme de texte libre non structuré, laissant derrière eux les normes linguistiques. La principale préoccupation et lacune dans la formulation de stratégies de détection de la cyberintimidation est la rareté des ressources linguistiques disponibles, généralement pour les langues nouvellement évoluées. L'ourdou romain a récemment émergé et est donc une langue pauvre en ressources. L'ourdou est largement connu comme la langue nationale du Pakistan. Cependant, en raison des aspects socioculturels et multilingues, l'ourdou romain est largement utilisé sur Internet par les Asiatiques et plus particulièrement les Pakistanais. À combler l'écart susmentionné, ce travail de recherche présente des lignes directrices pour le processus d'annotation des données et a développé deux ressources linguistiques : (i) Corpus annoté en langue ourdou romaine pour la cyberagression et la détection du langage offensant.Le processus d'annotation des données impliquait des annotateurs bilingues au lieu du crowdsourcing.Il a l'avantage d'annoter correctement les instances qui constituent des cas clairs de cyberintimidation sans compromettre la qualité des données.Le corpus développé est très équilibré (avec un biais presque négligeable) contrairement à la plupart des corpus existants, même dans les langues matures.(ii) Traitement des informations textuelles pour la PNL les tâches impliquent l'élimination des mots d'arrêt en tant que sous-phase. Les mots d'arrêt portent le moins d'informations sémantiques et augmentent l'espace des fonctionnalités par rapport aux autres jetons et termes d'index dans corpora.Nous avons développé des mots d'arrêt spécifiques au domaine pour la langue ourdou romaine en tenant compte de toutes les variantes lexicales et généralement dans le contexte de la détection des agressions et des données collectées. Le travail a été effectué en utilisant le langage de programmation python et l'IDE Pycharm.Translated Description (Spanish)
La detección automática del ciberacoso ha seguido siendo una tarea muy desafiante, ya que el contenido y las conversaciones de las redes sociales generalmente se publican en forma de texto libre no estructurado, dejando atrás las normas lingüísticas. La principal preocupación y brecha en la formulación de estrategias de detección del ciberacoso es la escasez de recursos lingüísticos disponibles, generalmente para los idiomas recién evolucionados. El urdu romano ha surgido recientemente y, por lo tanto, es un idioma de escasos recursos. El urdu ha sido ampliamente conocido como el idioma nacional de Pakistán. Sin embargo, debido a aspectos socioculturales y multilingües, el urdu romano es ampliamente utilizado en Internet por los asiáticos y, más específicamente, por los paquistaníes. cumplir con la brecha mencionada anteriormente, este trabajo de investigación presenta pautas para el proceso de anotación de datos y desarrolló dos recursos lingüísticos: (i) corpus anotado en idioma urdu romano para la ciberagresión y la detección de lenguaje ofensivo. El proceso de anotación de datos involucró anotadores bilingües en lugar de crowdsourcing. Tiene la ventaja de anotar correctamente las instancias que constituyen casos claros de ciberacoso sin comprometer la calidad de los datos. El corpus desarrollado es altamente equilibrado (con un sesgo casi insignificante) a diferencia de la mayoría de los corpus existentes, incluso en idiomas maduros.(ii) Procesamiento de información textual para PNL. las tareas implican la eliminación de palabras de parada como una subfase. Las palabras de parada llevan menos información semántica y aumentan el espacio de características en comparación con los otros tokens y términos de índice en corpora. Hemos desarrollado palabras de parada específicas del dominio para el lenguaje urdu romano teniendo en cuenta todas las variantes léxicas y, por lo general, en el contexto de la detección de agresiones y los datos recopilados. El trabajo se ha llevado a cabo utilizando el lenguaje de programación Python y el IDE de Pycharm.Files
art.-4_3C_TIC_ed.37_vol.10_n2_-1.pdf.pdf
Files
(1.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:0bc47794aceb5260acc8def5256903b9
|
1.3 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تطوير الموارد اللغوية الحاسوبية للكشف الآلي عن تهديدات التنمر الإلكتروني النصية باللغة الرومانية الأردية
- Translated title (French)
- Développement de ressources linguistiques computationnelles pour la détection automatisée des menaces textuelles de cyberintimidation en langue romaine ourdou
- Translated title (Spanish)
- Desarrollo de recursos lingüísticos computacionales para la detección automatizada de amenazas de ciberacoso textual en lengua urdu romana
Identifiers
- Other
- https://openalex.org/W3174551751
- DOI
- 10.17993/3ctic.2021.102.101-121
References
- https://openalex.org/W1513612986
- https://openalex.org/W2097277954
- https://openalex.org/W2295212766
- https://openalex.org/W2520961805
- https://openalex.org/W2740168486
- https://openalex.org/W2740496918
- https://openalex.org/W2766857497
- https://openalex.org/W2784010253
- https://openalex.org/W2805807672
- https://openalex.org/W2889171966
- https://openalex.org/W2904937466
- https://openalex.org/W2906979176
- https://openalex.org/W2936832793
- https://openalex.org/W2981977471
- https://openalex.org/W2987558058
- https://openalex.org/W3015536985
- https://openalex.org/W3091315987
- https://openalex.org/W3094372599
- https://openalex.org/W3094615924
- https://openalex.org/W3096295776
- https://openalex.org/W3142985490
- https://openalex.org/W3209468839