An autonomous mixed data oversampling method for AIOT-based churn recognition and personalized recommendations using behavioral segmentation
Creators
- 1. COMSATS University Islamabad
- 2. Jeju National University
- 3. Princess Nourah bint Abdulrahman University
Description
The telecom sector is currently undergoing a digital transformation by integrating artificial intelligence (AI) and Internet of Things (IoT) technologies. Customer retention in this context relies on the application of autonomous AI methods for analyzing IoT device data patterns in relation to the offered service packages. One significant challenge in existing studies is treating churn recognition and customer segmentation as separate tasks, which diminishes overall system accuracy. This study introduces an innovative approach by leveraging a unified customer analytics platform that treats churn recognition and segmentation as a bi-level optimization problem. The proposed framework includes an Auto Machine Learning (AutoML) oversampling method, effectively handling three mixed datasets of customer churn features while addressing imbalanced-class distribution issues. To enhance performance, the study utilizes the strength of oversampling methods like synthetic minority oversampling technique for nominal and continuous features (SMOTE-NC) and synthetic minority oversampling with encoded nominal and continuous features (SMOTE-ENC). Performance evaluation, using 10-fold cross-validation, measures accuracy and F1-score. Simulation results demonstrate that the proposed strategy, particularly Random Forest (RF) with SMOTE-NC, outperforms standard methods with SMOTE. It achieves accuracy rates of 79.24%, 94.54%, and 69.57%, and F1-scores of 65.25%, 81.87%, and 45.62% for the IBM, Kaggle Telco and Cell2Cell datasets, respectively. The proposed method autonomously determines the number and density of clusters. Factor analysis employing Bayesian logistic regression identifies influential factors for accurate customer segmentation. Furthermore, the study segments consumers behaviorally and generates targeted recommendations for personalized service packages, benefiting decision-makers.
Translated Descriptions
Translated Description (Arabic)
يشهد قطاع الاتصالات حاليًا تحولًا رقميًا من خلال دمج تقنيات الذكاء الاصطناعي (AI) وإنترنت الأشياء (IoT). يعتمد الاحتفاظ بالعملاء في هذا السياق على تطبيق أساليب الذكاء الاصطناعي المستقلة لتحليل أنماط بيانات جهاز إنترنت الأشياء فيما يتعلق بحزم الخدمات المقدمة. يتمثل أحد التحديات المهمة في الدراسات الحالية في التعامل مع التعرف على التقلبات وتقسيم العملاء كمهام منفصلة، مما يقلل من دقة النظام بشكل عام. تقدم هذه الدراسة نهجًا مبتكرًا من خلال الاستفادة من منصة تحليلات العملاء الموحدة التي تتعامل مع التعرف على التقلبات وتقسيمها كمشكلة تحسين ثنائية المستوى. يتضمن الإطار المقترح طريقة الإفراط في أخذ العينات من التعلم الآلي (AutoML)، والتعامل بفعالية مع ثلاث مجموعات بيانات مختلطة من ميزات العملاء مع معالجة مشكلات التوزيع غير المتوازن للفئة. لتعزيز الأداء، تستخدم الدراسة قوة طرق أخذ العينات الزائدة مثل تقنية أخذ العينات الزائدة للأقليات الاصطناعية للميزات الاسمية والمستمرة (SMOTE - NC) وأخذ العينات الزائدة للأقليات الاصطناعية مع الميزات الاسمية والمستمرة المشفرة (SMOTE - ENC). تقييم الأداء، باستخدام 10 أضعاف التحقق المتبادل، يقيس الدقة والنتيجة F1. تُظهر نتائج المحاكاة أن الاستراتيجية المقترحة، لا سيما الغابة العشوائية (RF) مع SMOTE - NC، تتفوق على الأساليب القياسية مع SMOTE. يحقق معدلات دقة تبلغ 79.24 ٪ و 94.54 ٪ و 69.57 ٪، و درجات F1 تبلغ 65.25 ٪ و 81.87 ٪ و 45.62 ٪ لمجموعات بيانات IBM و Kaggle Telco و Cell2Cell، على التوالي. تحدد الطريقة المقترحة بشكل مستقل عدد وكثافة المجموعات. يحدد تحليل العوامل الذي يستخدم الانحدار اللوجستي البايزي العوامل المؤثرة لتجزئة العملاء بدقة. علاوة على ذلك، تقوم الدراسة بتقسيم المستهلكين بشكل سلوكي وتنتج توصيات مستهدفة لحزم الخدمات الشخصية، مما يفيد صناع القرار.Translated Description (French)
Le secteur des télécommunications est actuellement en pleine transformation numérique en intégrant les technologies de l'intelligence artificielle (IA) et de l'Internet des objets (IoT). La fidélisation de la clientèle dans ce contexte repose sur l'application de méthodes autonomes d'IA pour analyser les modèles de données des appareils IoT par rapport aux forfaits de services proposés. Un défi important dans les études existantes est de traiter la reconnaissance du désabonnement et la segmentation de la clientèle comme des tâches distinctes, ce qui diminue la précision globale du système. Cette étude introduit une approche innovante en tirant parti d'une plate-forme d'analyse client unifiée qui traite la reconnaissance et la segmentation du désabonnement comme un problème d'optimisation à deux niveaux. Le cadre proposé comprend une méthode de suréchantillonnage Auto Machine Learning (AutoML), gérant efficacement trois ensembles de données mixtes de fonctionnalités de désabonnement des clients tout en résolvant les problèmes de distribution de classe déséquilibrée. Pour améliorer les performances, l'étude utilise la force des méthodes de suréchantillonnage telles que la technique de suréchantillonnage des minorités synthétiques pour les caractéristiques nominales et continues (SMOTE-NC) et le suréchantillonnage des minorités synthétiques avec des caractéristiques nominales et continues codées (SMOTE-ENC). Évaluation des performances, à l'aide d'une validation croisée de 10 fois, mesure la précision et le score F1. Les résultats de la simulation démontrent que la stratégie proposée, en particulier Random Forest (RF) avec SMOTE-NC, surpasse les méthodes standard avec SMOTE. Il atteint des taux de précision de 79,24 %, 94,54 % et 69,57 %, et des scores F1 de 65,25 %, 81,87 % et 45,62 % pour les ensembles de données IBM, Kaggle Telco et Cell2Cell, respectivement. Le procédé proposé détermine de manière autonome le nombre et la densité des grappes. L'analyse factorielle utilisant la régression logistique bayésienne identifie les facteurs influents pour une segmentation précise de la clientèle. En outre, l'étude segmente les consommateurs sur le plan comportemental et génère des recommandations ciblées pour des forfaits de services personnalisés, au profit des décideurs.Translated Description (Spanish)
El sector de las telecomunicaciones está experimentando actualmente una transformación digital mediante la integración de las tecnologías de inteligencia artificial (IA) e Internet de las cosas (IoT). La retención de clientes en este contexto se basa en la aplicación de métodos autónomos de IA para analizar los patrones de datos de los dispositivos IoT en relación con los paquetes de servicios ofrecidos. Un desafío importante en los estudios existentes es tratar el reconocimiento de abandono y la segmentación de clientes como tareas separadas, lo que disminuye la precisión general del sistema. Este estudio presenta un enfoque innovador al aprovechar una plataforma de análisis de clientes unificada que trata el reconocimiento y la segmentación del abandono como un problema de optimización de dos niveles. El marco propuesto incluye un método de sobremuestreo de Auto Machine Learning (AutoML), que maneja de manera efectiva tres conjuntos de datos mixtos de características de abandono de clientes al tiempo que aborda los problemas de distribución de clases desequilibradas. Para mejorar el rendimiento, el estudio utiliza la fuerza de los métodos de sobremuestreo como la técnica de sobremuestreo de minorías sintéticas para características nominales y continuas (SMOTE-NC) y el sobremuestreo de minorías sintéticas con características nominales y continuas codificadas (SMOTE-ENC). La evaluación del rendimiento, utilizando una validación cruzada de 10 veces, mide la precisión y la puntuación F1. Los resultados de la simulación demuestran que la estrategia propuesta, particularmente Random Forest (RF) con SMOTE-NC, supera a los métodos estándar CON SMOTE. Logra tasas de precisión del 79,24%, 94,54% y 69,57%, y puntuaciones F1 del 65,25%, 81,87% y 45,62% para los conjuntos de datos IBM, Kaggle Telco y Cell2Cell, respectivamente. El método propuesto determina de forma autónoma el número y la densidad de los clústeres. El análisis factorial que emplea la regresión logística bayesiana identifica factores influyentes para una segmentación precisa de los clientes. Además, el estudio segmenta el comportamiento de los consumidores y genera recomendaciones específicas para paquetes de servicios personalizados, lo que beneficia a los responsables de la toma de decisiones.Additional details
Additional titles
- Translated title (Arabic)
- طريقة مستقلة لأخذ عينات مختلطة من البيانات للتعرف على التقلبات القائمة على AIOT والتوصيات المخصصة باستخدام التجزئة السلوكية
- Translated title (French)
- Une méthode autonome de suréchantillonnage de données mixtes pour la reconnaissance du désabonnement basée sur l'AIOT et des recommandations personnalisées utilisant la segmentation comportementale
- Translated title (Spanish)
- Un método autónomo de sobremuestreo de datos mixtos para el reconocimiento de abandono basado en AIOT y recomendaciones personalizadas utilizando segmentación conductual
Identifiers
- Other
- https://openalex.org/W4390505385
- DOI
- 10.7717/peerj-cs.1756
References
- https://openalex.org/W1922493843
- https://openalex.org/W1969503077
- https://openalex.org/W1989049108
- https://openalex.org/W2029876747
- https://openalex.org/W2118710949
- https://openalex.org/W2321670847
- https://openalex.org/W2540642777
- https://openalex.org/W2580318214
- https://openalex.org/W2775287496
- https://openalex.org/W2783148655
- https://openalex.org/W2801945346
- https://openalex.org/W2890205819
- https://openalex.org/W2893074001
- https://openalex.org/W2901487771
- https://openalex.org/W2939289155
- https://openalex.org/W2943920414
- https://openalex.org/W2971644666
- https://openalex.org/W3010280706
- https://openalex.org/W3014885890
- https://openalex.org/W3032811227
- https://openalex.org/W3083721190
- https://openalex.org/W3105011848
- https://openalex.org/W3123982701
- https://openalex.org/W3125632548
- https://openalex.org/W3132622911
- https://openalex.org/W3135156596
- https://openalex.org/W3155396182
- https://openalex.org/W4310500583
- https://openalex.org/W4322706757
- https://openalex.org/W4323314291
- https://openalex.org/W4323543254
- https://openalex.org/W4361271038
- https://openalex.org/W4381094450
- https://openalex.org/W4386175032
- https://openalex.org/W4386544814
- https://openalex.org/W4387008303
- https://openalex.org/W4388297762