Authorship Identification of SOurce COde 2020 (AI-SOCO)

doi:10.60692/1s0qv-h8028

Published May 30, 2020 | Version v1

Publication Metadata-only

Authorship Identification of SOurce COde 2020 (AI-SOCO)

1. Jordan University of Science and Technology
2. Duquesne University
3. Staffordshire University
4. Universitat Politècnica de València

General authorship identification is essential to the detection of undesirable deception of others' content misuse or exposing the owners of some anonymous hurtful content. This is done by revealing the author of that content. Authorship Identification of SOurce COde (AI-SOCO) focuses on uncovering the author who wrote some piece of code. This facilitates solving issues related to cheating in academic, work and open source environments. Also, it can be helpful in detecting the authors of malware softwares over the world. The detection of cheating in academic communities is significant to properly address the contribution of each researcher. Also, in work environments, credit sometimes goes to people that did not deserve it. Such issues of plagiarism could arise in open source projects that are available on public platforms. Similarly, this could be used in public or private online coding contests whether done in coding interviews or in official coding training contests to detect the cheating of applicants or contestants. A system like this could also play a big role in detecting the source of anonymous malicious softwares. The dataset is composed of source codes collected from the open submissions in the Codeforces online judge. Codeforces is an online judge for hosting competitive programming contests such that each contest consists of multiple problems to be solved by the participants. A Codeforces participant can solve a problem by writing a solution for it using any of the available programming languages on the website, and then submitting the solution through the website. The solution's result can be correct (accepted) or incorrect (wrong answer, time limit exceeded, etc.). In our dataset, we selected 1,000 users and collected 100 source codes from each one. So, the total number of source codes is 100,000. All collected source codes are correct, bug-free, compile-ready and written using the C++ programming language using different versions. For each user, all collected source codes are from unique problems. Given the pre-defined set of source codes and their authors, the task is to build a system to determine which one of these authors wrote a given unseen before source code. Dataset website: https://sites.google.com/view/ai-soco-2020.

Translated Descriptions

This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد تحديد التأليف العام أمرًا ضروريًا للكشف عن الخداع غير المرغوب فيه لإساءة استخدام محتوى الآخرين أو فضح مالكي بعض المحتوى المؤذي المجهول. ويتم ذلك من خلال الكشف عن مؤلف هذا المحتوى. يركز تأليف SO URCE CODE (AI - SOCO) على الكشف عن المؤلف الذي كتب بعض التعليمات البرمجية. وهذا يسهل حل القضايا المتعلقة بالغش في البيئات الأكاديمية والعملية والمفتوحة المصدر. كما يمكن أن يكون مفيدًا في اكتشاف مؤلفي برامج البرامج الضارة في جميع أنحاء العالم. يعد اكتشاف الغش في الأوساط الأكاديمية أمرًا مهمًا لمعالجة مساهمة كل باحث بشكل صحيح. أيضًا، في بيئات العمل، يذهب الفضل أحيانًا إلى أشخاص لا يستحقونه. يمكن أن تنشأ مثل هذه القضايا المتعلقة بالسرقة الأدبية في مشاريع مفتوحة المصدر متاحة على المنصات العامة. وبالمثل، يمكن استخدام هذا في مسابقات الترميز العامة أو الخاصة عبر الإنترنت سواء تم ذلك في مقابلات الترميز أو في مسابقات التدريب على الترميز الرسمية للكشف عن غش المتقدمين أو المتسابقين. يمكن أن يلعب نظام مثل هذا أيضًا دورًا كبيرًا في الكشف عن مصدر البرامج الضارة المجهولة. تتكون مجموعة البيانات من أكواد المصدر التي تم جمعها من التقديمات المفتوحة في قاضي المدونة عبر الإنترنت. Codeforces هو حكم عبر الإنترنت لاستضافة مسابقات البرمجة التنافسية بحيث تتكون كل مسابقة من مشاكل متعددة يتعين على المشاركين حلها. يمكن للمشارك في Codeforces حل المشكلة عن طريق كتابة حل لها باستخدام أي من لغات البرمجة المتاحة على الموقع الإلكتروني، ثم إرسال الحل من خلال الموقع الإلكتروني. يمكن أن تكون نتيجة الحل صحيحة (مقبولة) أو غير صحيحة (إجابة خاطئة، تجاوز الحد الزمني، إلخ). في مجموعة البيانات الخاصة بنا، اخترنا 1000 مستخدم وجمعنا 100 رمز مصدر من كل واحد. إذن، العدد الإجمالي للرموز المصدرية هو 100,000. جميع أكواد المصدر التي تم جمعها صحيحة وخالية من الأخطاء وجاهزة للتجميع ومكتوبة باستخدام لغة برمجة سي++ باستخدام إصدارات مختلفة. بالنسبة لكل مستخدم، فإن جميع رموز المصدر التي تم جمعها هي من مشاكل فريدة. بالنظر إلى المجموعة المحددة مسبقًا من رموز المصدر ومؤلفيها، فإن المهمة هي بناء نظام لتحديد أي من هؤلاء المؤلفين كتب شفرة مصدر معينة غير مرئية قبل شفرة المصدر. موقع مجموعة البيانات: https://sites.google.com/view/ai-soco-2020.

Translated Description (French)

L'identification générale de l'auteur est essentielle pour détecter la tromperie indésirable de l'utilisation abusive du contenu d'autrui ou pour exposer les propriétaires de certains contenus blessants anonymes. Cela se fait en révélant l'auteur de ce contenu. Authorship Identification de SOurce COde (AI-SOCO) se concentre sur la découverte de l'auteur qui a écrit un morceau de code. Cela facilite la résolution des problèmes liés à la tricherie dans les environnements académiques, professionnels et open source. En outre, il peut être utile pour détecter les auteurs de logiciels malveillants dans le monde entier. La détection de la tricherie dans les communautés académiques est importante pour répondre correctement à la contribution de chaque chercheur. De plus, dans les environnements de travail, le mérite revient parfois à des personnes qui ne le méritaient pas. De tels problèmes de plagiat pourraient survenir dans les projets open source disponibles sur les plateformes publiques. De même, cela pourrait être utilisé dans des concours de codage en ligne publics ou privés, que ce soit dans des entretiens de codage ou dans des concours officiels de formation au codage pour détecter la tricherie des candidats ou des candidats. Un système comme celui-ci pourrait également jouer un rôle important dans la détection de la source de logiciels malveillants anonymes. L'ensemble de données est composé de codes sources collectés à partir des soumissions ouvertes dans le juge en ligne Codeforces. Codeforces est un juge en ligne pour l'organisation de concours de programmation compétitifs tels que chaque concours se compose de multiples problèmes à résoudre par les participants. Un participant à Codeforces peut résoudre un problème en écrivant une solution à l'aide de l'un des langages de programmation disponibles sur le site Web, puis en soumettant la solution via le site Web. Le résultat de la solution peut être correct (accepté) ou incorrect (mauvaise réponse, délai dépassé, etc.). Dans notre ensemble de données, nous avons sélectionné 1 000 utilisateurs et collecté 100 codes sources pour chacun d'entre eux. Ainsi, le nombre total de codes sources est de 100 000. Tous les codes sources collectés sont corrects, sans bogue, prêts à être compilés et écrits en utilisant le langage de programmation C++ en utilisant différentes versions. Pour chaque utilisateur, tous les codes sources collectés proviennent de problèmes uniques. Compte tenu de l'ensemble prédéfini de codes sources et de leurs auteurs, la tâche consiste à construire un système pour déterminer lequel de ces auteurs a écrit un code source invisible donné avant. Site Web de l'ensemble de données : https://sites.google.com/view/ai-soco-2020.

Translated Description (Spanish)

La identificación general de la autoría es esencial para detectar el engaño indeseable del uso indebido del contenido de otros o para exponer a los propietarios de algún contenido dañino anónimo. Esto se hace revelando al autor de ese contenido. Unaidentificación uthorship I de SOurce COde (AI-SOCO) se centra en descubrir al autor que escribió algún fragmento de código. Esto facilita la resolución de problemas relacionados con las trampas en entornos académicos, laborales y de código abierto. Además, puede ser útil para detectar a los autores de software malicioso en todo el mundo. La detección de trampas en las comunidades académicas es significativa para abordar adecuadamente la contribución de cada investigador. Además, en los entornos de trabajo, el crédito a veces se otorga a personas que no lo merecían. Tales problemas de plagio podrían surgir en proyectos de código abierto que están disponibles en plataformas públicas. Del mismo modo, esto podría usarse en concursos de codificación en línea públicos o privados, ya sea en entrevistas de codificación o en concursos oficiales de capacitación en codificación para detectar el engaño de los solicitantes o concursantes. Un sistema como este también podría desempeñar un papel importante en la detección de la fuente de software malicioso anónimo. El conjunto de datos está compuesto por códigos fuente recopilados de las presentaciones abiertas en el juez en línea de Codeforces. Codeforces es un juez en línea para organizar concursos de programación competitivos, de modo que cada concurso consta de múltiples problemas que los participantes deben resolver. Un participante de Codeforces puede resolver un problema escribiendo una solución para él utilizando cualquiera de los lenguajes de programación disponibles en el sitio web y luego enviando la solución a través del sitio web. El resultado de la solución puede ser correcto (aceptado) o incorrecto (respuesta incorrecta, límite de tiempo excedido, etc.). En nuestro conjunto de datos, seleccionamos 1000 usuarios y recopilamos 100 códigos fuente de cada uno. Entonces, el número total de códigos fuente es 100.000. Todos los códigos fuente recopilados son correctos, sin errores, listos para compilar y escritos utilizando el lenguaje de programación C++ con diferentes versiones. Para cada usuario, todos los códigos fuente recopilados provienen de problemas únicos. Dado el conjunto predefinido de códigos fuente y sus autores, la tarea es construir un sistema para determinar cuál de estos autores escribió un determinado código fuente no visto antes. Sitio web del conjunto de datos: https://sites.google.com/view/ai-soco-2020.

Additional details

Translated title (Arabic): تحديد هوية مؤلف SOurce COde 2020 (AI - SOCO)
Translated title (French): Identification de la propriété de SOurce COde 2020 (AI-SOCO)
Translated title (Spanish): Identificación de autoría de SOurce COde 2020 (AI-SOCO)

Other: https://openalex.org/W4393620429
DOI: 10.5281/zenodo.4059839

Is Global South Knowledge: Yes
Country: Jordan

	All versions	This version
Views	1	1
Downloads	0	0
Data volume	0 Bytes	0 Bytes

Authorship Identification of SOurce COde 2020 (AI-SOCO)

Translated Descriptions

Translated Description (Arabic)

Translated Description (French)

Translated Description (Spanish)

Additional details

Additional titles

Identifiers

Related works

GreSIS Basics Section

Authorship Identification of SOurce COde 2020 (AI-SOCO)

Creators

Description

Translated Descriptions

Translated Description (Arabic)

Translated Description (French)

Translated Description (Spanish)

Additional details

Additional titles

Identifiers

Related works

GreSIS Basics Section