Published January 16, 2020 | Version v1
Publication Open

An academic Arabic corpus for plagiarism detection: design, construction and experimentation

  • 1. University of Jordan
  • 2. University of Sharjah

Description

Abstract Advancement in information technology has resulted in massive textual material that is open to appropriation. Due to researchers' misconduct, a plethora of plagiarism detection (PD) systems have been developed. However, most PD systems on the market do not support the Arabic language. In this paper, we discuss the design and construction of an Arabic PD reference corpus that is dedicated to academic language. It consists of (2312) dissertations that were defended by postgraduate students at the University of Jordan (JU) between the years 2001–2016. This Academic Jordan University Plagiarism Detection corpus; henceforth, JUPlag, follows the Dewey decimal classification (DDC) in the way it is structured. The goal of the corpus is twofold: Firstly, it is a database for the detection of plagiarism in student assignments, reports, and dissertations. Secondly, the n-gram structure of the corpus provides a knowledgebase for linguistic analysis, language teaching, and the learning of plagiarism-free writing. The PD system is guided by JU Library's metadata for retrieval and discovery of plagiarism. To test JUPlag, we injected an unseen dissertation with multiple instances of plagiarism-simulated paragraphs and sentences. Experimentation with the system using different verbatim n-gram segments is indeed promising. Preliminary results encourage that permission be sought to enrich this corpus with all the theses in the Thesis Repository of the Union of Arab Universities. The JUPlag corpus is intended to function as an indispensable source for testing and evaluating plagiarism detection techniques. Since the University of Jordan is seeking to become a center for plagiarism detection for Arabic content and being a non-profit organization, it will charge a nominal fee for the use of JUPlag to finance the maintenance and development of the corpus.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

نتج عن التقدم المجرد في تكنولوجيا المعلومات مواد نصية ضخمة مفتوحة للاعتماد. بسبب سوء سلوك الباحثين، تم تطوير عدد كبير من أنظمة الكشف عن الانتحال. ومع ذلك، فإن معظم أنظمة التطوير المهني في السوق لا تدعم اللغة العربية. في هذه الورقة، نناقش تصميم وبناء مجموعة مرجعية من التطوير المهني باللغة العربية مخصصة للغة الأكاديمية. وتتكون من (2312) أطروحة دافع عنها طلاب الدراسات العليا في الجامعة الأردنية بين الأعوام 2001–2016. هذه المجموعة الأكاديمية للكشف عن الانتحال في الجامعة الأردنية ؛ من الآن فصاعدًا، تتبع JUPlag تصنيف ديوي العشري (DDC) بالطريقة التي يتم تنظيمها بها. الهدف من المجموعة ذو شقين: أولاً، هي قاعدة بيانات للكشف عن الانتحال في مهام الطلاب والتقارير والأطروحات. ثانيًا، يوفر هيكل n - gram للمجموعة قاعدة معرفية للتحليل اللغوي وتعليم اللغة وتعلم الكتابة الخالية من الانتحال. يسترشد نظام التطوير المهني بالبيانات الوصفية لمكتبة جامعة جوهانسبرغ لاسترجاع واكتشاف الانتحال. لاختبار JUPlag، قمنا بحقن أطروحة غير مرئية مع حالات متعددة من الفقرات والجمل التي تحاكي الانتحال. إن تجربة النظام باستخدام مقاطع n - gram حرفية مختلفة واعدة بالفعل. تشجع النتائج الأولية على طلب الإذن لإثراء هذه المجموعة بجميع الأطروحات الواردة في مستودع أطروحات اتحاد الجامعات العربية. تهدف مجموعة JUPlag إلى العمل كمصدر لا غنى عنه لاختبار وتقييم تقنيات الكشف عن الانتحال. نظرًا لأن الجامعة الأردنية تسعى إلى أن تصبح مركزًا للكشف عن الانتحال للمحتوى العربي وكونها منظمة غير ربحية، فإنها ستفرض رسومًا رمزية لاستخدام JUPlag لتمويل صيانة وتطوير المجموعة.

Translated Description (French)

Résumé Les progrès de la technologie de l'information ont abouti à un matériel textuel massif qui est ouvert à l'appropriation. En raison de l'inconduite des chercheurs, une pléthore de systèmes de détection du plagiat (PD) ont été développés. Cependant, la plupart des systèmes PD sur le marché ne prennent pas en charge la langue arabe. Dans cet article, nous discutons de la conception et de la construction d'un corpus de référence arabe PD dédié au langage académique. Il se compose de (2312) mémoires soutenus par des étudiants de troisième cycle de l'Université de Jordanie (JU) entre 2001 et 2016. Ce corpus de détection du plagiat de l'Université académique de Jordanie ; désormais, JUPlag, suit la classification décimale de Dewey (DDC) dans sa structure. L'objectif du corpus est double : tout d'abord, il s'agit d'une base de données pour la détection du plagiat dans les devoirs, les rapports et les dissertations des étudiants. Deuxièmement, la structure en n-grammes du corpus fournit une base de connaissances pour l'analyse linguistique, l'enseignement des langues et l'apprentissage de l'écriture sans plagiat. Le système PD est guidé par les métadonnées de la bibliothèque JU pour la récupération et la découverte du plagiat. Pour tester JUPlag, nous avons injecté une dissertation invisible avec de multiples cas de plagiat - des paragraphes et des phrases simulés. L'expérimentation avec le système utilisant différents segments verbatim de n-grammes est en effet prometteuse. Les résultats préliminaires encouragent à demander l'autorisation d'enrichir ce corpus de toutes les thèses du Référentiel de thèses de l'Union des universités arabes. Le corpus JUPlag est destiné à fonctionner comme une source indispensable pour tester et évaluer les techniques de détection du plagiat. Étant donné que l'Université de Jordanie cherche à devenir un centre de détection du plagiat pour le contenu arabe et qu'elle est une organisation à but non lucratif, elle facturera des frais nominaux pour l'utilisation de JUPlag afin de financer la maintenance et le développement du corpus.

Translated Description (Spanish)

Resumen El avance en la tecnología de la información ha dado como resultado un material textual masivo que está abierto a la apropiación. Debido a la mala conducta de los investigadores, se han desarrollado una gran cantidad de sistemas de detección de plagio (PD). Sin embargo, la mayoría de los sistemas de PD en el mercado no son compatibles con el idioma árabe. En este trabajo, discutimos el diseño y la construcción de un corpus de referencia de PD árabe que se dedica al lenguaje académico. Consiste en (2312) disertaciones que fueron defendidas por estudiantes de posgrado en la Universidad de Jordania (JU) entre los años 2001–2016. Este corpus académico de detección de plagio de la Universidad de Jordania; en adelante, JUPlag, sigue la clasificación decimal Dewey (DDC) en la forma en que está estructurado. El objetivo del corpus es doble: en primer lugar, es una base de datos para la detección de plagio en las tareas, informes y disertaciones de los estudiantes. En segundo lugar, la estructura de n-gramas del corpus proporciona una base de conocimientos para el análisis lingüístico, la enseñanza de idiomas y el aprendizaje de la escritura libre de plagio. El sistema de DP se guía por los metadatos de la Biblioteca JU para la recuperación y el descubrimiento del plagio. Para probar JUPlag, inyectamos una disertación invisible con múltiples instancias de plagio: párrafos y oraciones simulados. La experimentación con el sistema utilizando diferentes segmentos de n-gramas literales es realmente prometedora. Los resultados preliminares animan a que se solicite permiso para enriquecer este corpus con todas las tesis del Repositorio de Tesis de la Unión de Universidades Árabes. El corpus JUPlag está destinado a funcionar como una fuente indispensable para probar y evaluar las técnicas de detección de plagio. Dado que la Universidad de Jordania busca convertirse en un centro de detección de plagio para contenido árabe y ser una organización sin fines de lucro, cobrará una tarifa nominal por el uso de JUPlag para financiar el mantenimiento y desarrollo del corpus.

Files

s41239-019-0174-x.pdf

Files (1.2 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:bf4740bcf865b41db5d8fc210d08b7cc
1.2 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مجموعة أكاديمية عربية للكشف عن الانتحال: التصميم والبناء والتجريب
Translated title (French)
Un corpus académique arabe pour la détection du plagiat : conception, construction et expérimentation
Translated title (Spanish)
Un corpus académico árabe para la detección del plagio: diseño, construcción y experimentación

Identifiers

Other
https://openalex.org/W3010889635
DOI
10.1186/s41239-019-0174-x

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Jordan

References

  • https://openalex.org/W1270133036
  • https://openalex.org/W139631503
  • https://openalex.org/W1949981797
  • https://openalex.org/W1968197683
  • https://openalex.org/W1971195438
  • https://openalex.org/W1971226872
  • https://openalex.org/W1973697829
  • https://openalex.org/W1977459091
  • https://openalex.org/W1978394996
  • https://openalex.org/W2010433882
  • https://openalex.org/W2018255330
  • https://openalex.org/W2031842255
  • https://openalex.org/W2080766682
  • https://openalex.org/W2095327754
  • https://openalex.org/W2113937265
  • https://openalex.org/W2125158323
  • https://openalex.org/W2143296909
  • https://openalex.org/W2145713659
  • https://openalex.org/W2156522388
  • https://openalex.org/W2573409118
  • https://openalex.org/W2595847594
  • https://openalex.org/W2728576957
  • https://openalex.org/W2741844006
  • https://openalex.org/W2774570661
  • https://openalex.org/W2783710698
  • https://openalex.org/W2795864747
  • https://openalex.org/W2939031361
  • https://openalex.org/W3101647379
  • https://openalex.org/W3195216643
  • https://openalex.org/W4252251536
  • https://openalex.org/W4292003697
  • https://openalex.org/W626879319