On the Impact of Dataset Size:A Twitter Classification Case Study
- 1. L3S Research Center
 - 2. VNU University of Science
 - 3. University of Tennessee at Chattanooga
 
Description
The recent advent and evolution of deep learning models and pre-trained embedding techniques have created a breakthrough in supervised learning. Typically, we expect that adding more labeled data improves the predictive performance of supervised models. On the other hand, collecting more labeled data is not an easy task due to several difficulties, such as manual labor costs, data privacy, and computational constraint. Hence, a comprehensive study on the relation between training set size and the classification performance of different methods could be essentially useful in the selection of a learning model for a specific task. However, the literature lacks such a thorough and systematic study. In this paper, we concentrate on this relationship in the context of short, noisy texts from Twitter. We design a systematic mechanism to comprehensively observe the performance improvement of supervised learning models with the increase of data sizes on three well-known Twitter tasks: sentiment analysis, informativeness detection, and information relevance. Besides, we study how significantly better the recent deep learning models are compared to traditional machine learning approaches in the case of various data sizes. Our extensive experiments show (a) recent pre-trained models have overcome big data requirements, (b) a good choice of text representation has more impact than adding more data, and (c) adding more data is not always beneficial in supervised learning.
Translated Descriptions
Translated Description (Arabic)
أدى ظهور وتطور نماذج التعلم العميق وتقنيات التضمين المدربة مسبقًا مؤخرًا إلى حدوث طفرة في التعلم الخاضع للإشراف. عادة، نتوقع أن تؤدي إضافة المزيد من البيانات المصنفة إلى تحسين الأداء التنبؤي للنماذج الخاضعة للإشراف. من ناحية أخرى، فإن جمع المزيد من البيانات المصنفة ليس مهمة سهلة بسبب العديد من الصعوبات، مثل تكاليف العمالة اليدوية وخصوصية البيانات والقيود الحسابية. وبالتالي، يمكن أن تكون دراسة شاملة حول العلاقة بين حجم مجموعة التدريب وأداء تصنيف الأساليب المختلفة مفيدة بشكل أساسي في اختيار نموذج التعلم لمهمة محددة. ومع ذلك، فإن الأدبيات تفتقر إلى مثل هذه الدراسة الشاملة والمنهجية. في هذه الورقة، نركز على هذه العلاقة في سياق النصوص القصيرة الصاخبة من تويتر. نقوم بتصميم آلية منهجية لمراقبة تحسين أداء نماذج التعلم الخاضعة للإشراف بشكل شامل مع زيادة أحجام البيانات في ثلاث مهام معروفة على تويتر: تحليل المشاعر، واكتشاف المعلوماتية، وأهمية المعلومات. إلى جانب ذلك، ندرس مدى تحسين مقارنة نماذج التعلم العميق الحديثة بمناهج التعلم الآلي التقليدية في حالة أحجام البيانات المختلفة. تُظهر تجاربنا المكثفة (أ) أن النماذج الحديثة المدربة مسبقًا قد تغلبت على متطلبات البيانات الضخمة، (ب) أن الاختيار الجيد لتمثيل النص له تأثير أكبر من إضافة المزيد من البيانات، و (ج) أن إضافة المزيد من البيانات ليس مفيدًا دائمًا في التعلم الخاضع للإشراف.Translated Description (French)
L'avènement récent et l'évolution des modèles d'apprentissage profond et des techniques d'intégration préformées ont créé une percée dans l'apprentissage supervisé. En règle générale, nous nous attendons à ce que l'ajout de données plus étiquetées améliore les performances prédictives des modèles supervisés. D'autre part, la collecte de données plus étiquetées n'est pas une tâche facile en raison de plusieurs difficultés, telles que les coûts de main-d' œuvre, la confidentialité des données et les contraintes de calcul. Par conséquent, une étude approfondie sur la relation entre la taille de l'ensemble de formation et la performance de classification des différentes méthodes pourrait être essentiellement utile dans la sélection d'un modèle d'apprentissage pour une tâche spécifique. Cependant, la littérature manque d'une étude aussi approfondie et systématique. Dans cet article, nous nous concentrons sur cette relation dans le contexte de textes courts et bruyants de Twitter. Nous concevons un mécanisme systématique pour observer de manière exhaustive l'amélioration des performances des modèles d'apprentissage supervisé avec l'augmentation de la taille des données sur trois tâches Twitter bien connues : l'analyse des sentiments, la détection de l'informativité et la pertinence de l'information. En outre, nous étudions dans quelle mesure les modèles d'apprentissage profond récents sont significativement meilleurs que les approches d'apprentissage automatique traditionnelles dans le cas de différentes tailles de données. Nos expériences approfondies montrent (a) que les modèles pré-entraînés récents ont surmonté les exigences du big data, (b) qu'un bon choix de représentation de texte a plus d'impact que l'ajout de plus de données, et (c) que l'ajout de plus de données n'est pas toujours bénéfique dans l'apprentissage supervisé.Translated Description (Spanish)
El reciente advenimiento y la evolución de los modelos de aprendizaje profundo y las técnicas de integración preentrenadas han creado un gran avance en el aprendizaje supervisado. Por lo general, esperamos que la adición de más datos etiquetados mejore el rendimiento predictivo de los modelos supervisados. Por otro lado, recopilar más datos etiquetados no es una tarea fácil debido a varias dificultades, como los costos de mano de obra, la privacidad de los datos y la restricción computacional. Por lo tanto, un estudio exhaustivo sobre la relación entre el tamaño del conjunto de entrenamiento y el rendimiento de la clasificación de diferentes métodos podría ser esencialmente útil en la selección de un modelo de aprendizaje para una tarea específica. Sin embargo, la literatura carece de un estudio tan exhaustivo y sistemático. En este trabajo, nos concentramos en esta relación en el contexto de textos cortos y ruidosos de Twitter. Diseñamos un mecanismo sistemático para observar de manera integral la mejora del rendimiento de los modelos de aprendizaje supervisado con el aumento del tamaño de los datos en tres tareas bien conocidas de Twitter: análisis de sentimientos, detección de informatividad y relevancia de la información. Además, estudiamos qué tan significativamente mejores son los modelos recientes de aprendizaje profundo en comparación con los enfoques tradicionales de aprendizaje automático en el caso de varios tamaños de datos. Nuestros extensos experimentos muestran que (a) los modelos recientes preentrenados han superado los requisitos de big data, (b) una buena elección de representación de texto tiene más impacto que agregar más datos, y (c) agregar más datos no siempre es beneficioso en el aprendizaje supervisado.Files
      
        On%20the%20Impact%20of%20Dataset%20Size.pdf.pdf
        
      
    
    
      
        Files
         (949.0 kB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| 
          
          md5:65494849edcb43f80b393684e1a900e8
           | 
        
        949.0 kB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
 - حول تأثير حجم مجموعة البيانات:دراسة حالة تصنيف تويتر
 - Translated title (French)
 - Sur l'impact de la taille de l'ensemble de données :une étude de cas de classification Twitter
 - Translated title (Spanish)
 - Sobre el impacto del tamaño del conjunto de datos:un estudio de caso de clasificación de Twitter
 
Identifiers
- Other
 - https://openalex.org/W4226174029
 - DOI
 - 10.1145/3486622.3493960
 
            
              References
            
          
        - https://openalex.org/W1494547740
 - https://openalex.org/W1689711448
 - https://openalex.org/W1924689489
 - https://openalex.org/W2008056655
 - https://openalex.org/W2016944307
 - https://openalex.org/W2021097538
 - https://openalex.org/W2066946967
 - https://openalex.org/W2124499489
 - https://openalex.org/W2132886902
 - https://openalex.org/W2251009596
 - https://openalex.org/W2793109577
 - https://openalex.org/W2798575764
 - https://openalex.org/W2888501547
 - https://openalex.org/W2919587621
 - https://openalex.org/W2944338799
 - https://openalex.org/W2953558204
 - https://openalex.org/W2982300823
 - https://openalex.org/W3099342932
 - https://openalex.org/W3104186312