Supervised machine learning predictive analytics for alumni income
Creators
- 1. Tecnológico de Monterrey
Description
Abstract Background This paper explores machine learning algorithms and approaches for predicting alum income to obtain insights on the strongest predictors and a 'high' earners' class. Methods It examines the alum sample data obtained from a survey from a multicampus Mexican private university. Survey results include 17,898 and 12,275 observations before and after cleaning and pre-processing, respectively. The dataset comprises income values and a large set of independent demographical attributes of former students. We conduct an in-depth analysis to determine whether the accuracy of traditional algorithms can be improved with a data science approach. Furthermore, we present insights on patterns obtained using explainable artificial intelligence techniques. Results Results show that the machine learning models outperformed the parametric models of linear and logistic regression, in predicting alum's current income with statistically significant results (p < 0.05) in three different tasks. Moreover, the later methods were found to be the most accurate in predicting the alum's first income after graduation. Conclusion We identified that age, gender, working hours per week, first income and variables related to the alum's job position and firm contributed to explaining their current income. Findings indicated a gender wage gap, suggesting that further work is needed to enable equality.
Translated Descriptions
Translated Description (Arabic)
خلفية مجردة تستكشف هذه الورقة خوارزميات وأساليب التعلم الآلي للتنبؤ بدخل الشبة للحصول على رؤى حول أقوى المتنبئين وفئة "ذوي الدخل المرتفع". يفحص بيانات عينة الشب التي تم الحصول عليها من دراسة استقصائية من جامعة مكسيكية خاصة متعددة المعسكرات. تشمل نتائج المسح 17,898 و 12,275 ملاحظة قبل وبعد التنظيف والمعالجة المسبقة، على التوالي. تشتمل مجموعة البيانات على قيم الدخل ومجموعة كبيرة من السمات الديموغرافية المستقلة للطلاب السابقين. نقوم بإجراء تحليل متعمق لتحديد ما إذا كان يمكن تحسين دقة الخوارزميات التقليدية باستخدام نهج علم البيانات. علاوة على ذلك، نقدم رؤى حول الأنماط التي تم الحصول عليها باستخدام تقنيات الذكاء الاصطناعي القابلة للتفسير. تظهر نتائج النتائج أن نماذج التعلم الآلي تفوقت على النماذج البارامترية للانحدار الخطي واللوجستي، في التنبؤ بالدخل الحالي للألوم مع نتائج ذات دلالة إحصائية (p < 0.05) في ثلاث مهام مختلفة. علاوة على ذلك، وُجد أن الأساليب اللاحقة هي الأكثر دقة في التنبؤ بالدخل الأول للشبة بعد التخرج. الخاتمة حددنا أن العمر والجنس وساعات العمل في الأسبوع والدخل الأول والمتغيرات المتعلقة بالوظيفة والشركة قد ساهمت في شرح دخلهم الحالي. أشارت النتائج إلى وجود فجوة في الأجور بين الجنسين، مما يشير إلى الحاجة إلى مزيد من العمل لتمكين المساواة.Translated Description (French)
Résumé Contexte Cet article explore les algorithmes et les approches d'apprentissage automatique pour prédire le revenu des anciens afin d'obtenir des informations sur les prédicteurs les plus forts et une classe de « hauts » revenus. Méthodes Il examine les données d'échantillon d'alun obtenues à partir d'une enquête auprès d'une université privée mexicaine multicampus. Les résultats de l'enquête comprennent 17 898 et 12 275 observations avant et après le nettoyage et le prétraitement, respectivement. L'ensemble de données comprend des valeurs de revenu et un grand nombre d'attributs démographiques indépendants d'anciens étudiants. Nous menons une analyse approfondie pour déterminer si la précision des algorithmes traditionnels peut être améliorée avec une approche de science des données. De plus, nous présentons des informations sur les modèles obtenus à l'aide de techniques d'intelligence artificielle explicables. Résultats Les résultats montrent que les modèles d'apprentissage automatique ont surpassé les modèles paramétriques de régression linéaire et logistique, en prédisant le revenu actuel de l'alun avec des résultats statistiquement significatifs (p < 0,05) dans trois tâches différentes. De plus, les méthodes ultérieures se sont avérées les plus précises pour prédire le premier revenu de l'alun après l'obtention du diplôme. Conclusion Nous avons identifié que l'âge, le sexe, les heures de travail par semaine, le premier revenu et les variables liées au poste de travail de l'alun et à l'entreprise contribuaient à expliquer son revenu actuel. Les résultats ont indiqué un écart salarial entre les sexes, suggérant qu'un travail supplémentaire est nécessaire pour permettre l'égalité.Translated Description (Spanish)
Antecedentes abstractos Este documento explora los algoritmos y enfoques de aprendizaje automático para predecir los ingresos de los exalumnos para obtener información sobre los predictores más fuertes y una clase de "altos ingresos". Métodos Examina los datos de la muestra de alumbre obtenidos de una encuesta de una universidad privada mexicana multicampus. Los resultados de la encuesta incluyen 17 898 y 12 275 observaciones antes y después de la limpieza y el preprocesamiento, respectivamente. El conjunto de datos comprende valores de ingresos y un gran conjunto de atributos demográficos independientes de exalumnos. Realizamos un análisis en profundidad para determinar si la precisión de los algoritmos tradicionales se puede mejorar con un enfoque de ciencia de datos. Además, presentamos ideas sobre patrones obtenidos utilizando técnicas de inteligencia artificial explicables. Resultados Los resultados muestran que los modelos de aprendizaje automático superaron a los modelos paramétricos de regresión lineal y logística, en la predicción de los ingresos actuales del alumnado con resultados estadísticamente significativos (p < 0.05) en tres tareas diferentes. Además, se descubrió que los métodos posteriores eran los más precisos para predecir los primeros ingresos del alumno después de la graduación. Conclusión Identificamos que la edad, el género, las horas de trabajo por semana, los primeros ingresos y las variables relacionadas con el puesto de trabajo y la empresa del exalumno contribuyeron a explicar sus ingresos actuales. Los hallazgos indicaron una brecha salarial de género, lo que sugiere que se necesita más trabajo para permitir la igualdad.Files
s40537-022-00559-6.pdf
Files
(2.7 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:0164853e58c165fd845e46b8cfdb8a73
|
2.7 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- الإشراف على التحليلات التنبؤية للتعلم الآلي لدخل الخريجين
- Translated title (French)
- Analyse prédictive supervisée de l'apprentissage automatique pour les revenus des anciens élèves
- Translated title (Spanish)
- Análisis predictivo supervisado de aprendizaje automático para los ingresos de los exalumnos
Identifiers
- Other
- https://openalex.org/W4220954975
- DOI
- 10.1186/s40537-022-00559-6
References
- https://openalex.org/W1575534664
- https://openalex.org/W1678356000
- https://openalex.org/W1987552279
- https://openalex.org/W2032938012
- https://openalex.org/W2065643445
- https://openalex.org/W2069358889
- https://openalex.org/W2072733116
- https://openalex.org/W2096863518
- https://openalex.org/W2096904991
- https://openalex.org/W2118711140
- https://openalex.org/W2122660231
- https://openalex.org/W2143426320
- https://openalex.org/W2158135991
- https://openalex.org/W2479485698
- https://openalex.org/W2491017370
- https://openalex.org/W2536202999
- https://openalex.org/W2553971653
- https://openalex.org/W2567510934
- https://openalex.org/W2923019112
- https://openalex.org/W2994898777
- https://openalex.org/W4206209869
- https://openalex.org/W4230765542
- https://openalex.org/W4235051201
- https://openalex.org/W4243072198
- https://openalex.org/W4244410424