Published November 5, 2020 | Version v1
Publication

Heterogeneous Educational Data Classification at the Course Level

  • 1. Vietnam National University Ho Chi Minh City
  • 2. Ho Chi Minh City University of Technology

Description

Nowadays, teaching and learning activities in a course are greatly supported by information technologies. Forums are among information technologies utilized in a course to encourage students to communicate with lecturers more outside a traditional class. Free-styled textual posts in those communications express the problems that the students are facing as well as the interest and activeness of the students with respect to each topic of a course. Exploiting such textual data in a course forum for course-level student prediction is considered in our work. Due to hierarchical structures in course forum texts, we propose a solution in this paper which combines a deep convolutional neural network (CNN) and a loss function to extract the features from textual data in such a manner that more correct recognitions of instances of the minority class which includes students with failure can be supported. In addition, other numeric data are examined and used for the task so that all the students with and without posts can be predicted in the task. Therefore, our work is the first one that defines and solves this prediction task with heterogeneous educational data at the course level as compared to the existing works. In the proposed solution, Random Forests are suggested as an effective ensemble model suitable for our heterogeneous data when many single prediction models which are random trees can be built for many various subspaces with different random features in a supervised learning process. Experimental results in an empirical evaluation on two real datasets show that a heterogeneous combination of textual and numeric data with a Random Forest model can enhance the effectiveness of our solution to the task. The best accuracy and [Formula: see text]-measure values can be obtained for early predictions of the students with either success or failure. Such better predictions can help both students and lecturers beware of students' study and support them in time for ultimate success in a course.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في الوقت الحاضر، يتم دعم أنشطة التدريس والتعلم في الدورة بشكل كبير من خلال تقنيات المعلومات. المنتديات هي من بين تقنيات المعلومات المستخدمة في الدورة لتشجيع الطلاب على التواصل مع المحاضرين بشكل أكبر خارج الفصل التقليدي. تعبر المنشورات النصية ذات التصميم الحر في تلك الاتصالات عن المشكلات التي يواجهها الطلاب بالإضافة إلى اهتمام الطلاب ونشاطهم فيما يتعلق بكل موضوع من مواضيع الدورة التدريبية. يتم النظر في استغلال هذه البيانات النصية في منتدى الدورة التدريبية للتنبؤ بالطلاب على مستوى الدورة التدريبية في عملنا. نظرًا للهياكل الهرمية في نصوص منتدى المقرر الدراسي، نقترح حلاً في هذه الورقة يجمع بين شبكة عصبية التفافية عميقة (CNN) ووظيفة فقدان لاستخراج الميزات من البيانات النصية بطريقة يمكن من خلالها دعم التعرف الصحيح على حالات فصل الأقلية الذي يشمل الطلاب الذين يعانون من الفشل. بالإضافة إلى ذلك، يتم فحص البيانات الرقمية الأخرى واستخدامها للمهمة بحيث يمكن التنبؤ بجميع الطلاب الذين لديهم مشاركات وبدونها في المهمة. لذلك، فإن عملنا هو الأول الذي يحدد ويحل مهمة التنبؤ هذه ببيانات تعليمية غير متجانسة على مستوى الدورة مقارنة بالأعمال الحالية. في الحل المقترح، يتم اقتراح الغابات العشوائية كنموذج مجموعة فعال مناسب لبياناتنا غير المتجانسة عندما يمكن بناء العديد من نماذج التنبؤ الفردية التي هي أشجار عشوائية للعديد من المساحات الفرعية المختلفة ذات الميزات العشوائية المختلفة في عملية تعلم خاضعة للإشراف. تُظهر النتائج التجريبية في تقييم تجريبي على مجموعتي بيانات حقيقيتين أن الجمع غير المتجانس بين البيانات النصية والرقمية مع نموذج الغابة العشوائية يمكن أن يعزز فعالية حلنا للمهمة. يمكن الحصول على أفضل دقة وقيم قياس [الصيغة: انظر النص] للتنبؤات المبكرة للطلاب بنجاح أو فشل. يمكن أن تساعد هذه التنبؤات الأفضل كل من الطلاب والمحاضرين على توخي الحذر من دراسة الطلاب ودعمهم في الوقت المناسب لتحقيق النجاح النهائي في الدورة التدريبية.

Translated Description (French)

De nos jours, les activités d'enseignement et d'apprentissage d'un cours sont fortement soutenues par les technologies de l'information. Les forums font partie des technologies de l'information utilisées dans un cours pour encourager les étudiants à communiquer avec des conférenciers plus en dehors d'une classe traditionnelle. Les messages textuels de style libre dans ces communications expriment les problèmes auxquels les étudiants sont confrontés ainsi que l'intérêt et l'activité des étudiants par rapport à chaque sujet d'un cours. L'exploitation de ces données textuelles dans un forum de cours pour la prédiction des étudiants au niveau du cours est prise en compte dans notre travail. En raison des structures hiérarchiques dans les textes des forums de cours, nous proposons une solution dans cet article qui combine un réseau neuronal convolutionnel profond (CNN) et une fonction de perte pour extraire les caractéristiques des données textuelles de manière à ce que des reconnaissances plus correctes des instances de la classe minoritaire qui inclut les étudiants en échec puissent être prises en charge. En outre, d'autres données numériques sont examinées et utilisées pour la tâche afin que tous les étudiants avec et sans messages puissent être prédits dans la tâche. Par conséquent, notre travail est le premier qui définit et résout cette tâche de prédiction avec des données éducatives hétérogènes au niveau du cours par rapport aux travaux existants. Dans la solution proposée, les forêts aléatoires sont proposées comme un modèle d'ensemble efficace adapté à nos données hétérogènes lorsque de nombreux modèles de prédiction uniques qui sont des arbres aléatoires peuvent être construits pour de nombreux sous-espaces différents avec des caractéristiques aléatoires différentes dans un processus d'apprentissage supervisé. Les résultats expérimentaux d'une évaluation empirique sur deux ensembles de données réels montrent qu'une combinaison hétérogène de données textuelles et numériques avec un modèle de forêt aléatoire peut améliorer l'efficacité de notre solution à la tâche. Les meilleures valeurs de précision et de mesure [Formule : voir texte] peuvent être obtenues pour les prédictions précoces des élèves avec succès ou échec. Ces meilleures prédictions peuvent aider les étudiants et les enseignants à se méfier des études des étudiants et à les soutenir à temps pour le succès ultime d'un cours.

Translated Description (Spanish)

Hoy en día, las actividades de enseñanza y aprendizaje en un curso están muy respaldadas por las tecnologías de la información. Los foros se encuentran entre las tecnologías de la información utilizadas en un curso para alentar a los estudiantes a comunicarse con los profesores más fuera de una clase tradicional. Las publicaciones textuales de estilo libre en esas comunicaciones expresan los problemas que enfrentan los estudiantes, así como el interés y la actividad de los estudiantes con respecto a cada tema de un curso. La explotación de dichos datos textuales en un foro de cursos para la predicción de los estudiantes a nivel de curso se considera en nuestro trabajo. Debido a las estructuras jerárquicas en los textos del foro del curso, proponemos una solución en este documento que combina una red neuronal convolucional profunda (CNN) y una función de pérdida para extraer las características de los datos textuales de tal manera que se puedan admitir reconocimientos más correctos de las instancias de la clase minoritaria que incluye estudiantes con fracaso. Además, se examinan otros datos numéricos y se utilizan para la tarea para que todos los estudiantes con y sin publicaciones puedan predecirse en la tarea. Por lo tanto, nuestro trabajo es el primero que define y resuelve esta tarea de predicción con datos educativos heterogéneos a nivel de curso en comparación con los trabajos existentes. En la solución propuesta, los bosques aleatorios se sugieren como un modelo de conjunto efectivo adecuado para nuestros datos heterogéneos cuando se pueden construir muchos modelos de predicción únicos que son árboles aleatorios para muchos subespacios diversos con diferentes características aleatorias en un proceso de aprendizaje supervisado. Los resultados experimentales en una evaluación empírica de dos conjuntos de datos reales muestran que una combinación heterogénea de datos textuales y numéricos con un modelo de bosque aleatorio puede mejorar la eficacia de nuestra solución a la tarea. La mejor precisión y los valores de [Fórmula: ver texto]-medida se pueden obtener para las predicciones tempranas de los estudiantes con éxito o fracaso. Estas mejores predicciones pueden ayudar tanto a los estudiantes como a los profesores a tener cuidado con el estudio de los estudiantes y apoyarlos a tiempo para el éxito final en un curso.

Additional details

Additional titles

Translated title (Arabic)
تصنيف البيانات التعليمية غير المتجانسة على مستوى الدورة
Translated title (French)
Classification hétérogène des données éducatives au niveau du cours
Translated title (Spanish)
Clasificación heterogénea de datos educativos a nivel de curso

Identifiers

Other
https://openalex.org/W3089625708
DOI
10.1142/s2196888821500147

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W2054487404
  • https://openalex.org/W2089892729
  • https://openalex.org/W2132466791
  • https://openalex.org/W2251048942
  • https://openalex.org/W2251747618
  • https://openalex.org/W2278783440
  • https://openalex.org/W2551429935
  • https://openalex.org/W2607294868
  • https://openalex.org/W2911964244
  • https://openalex.org/W2964050365
  • https://openalex.org/W4245284465