Published April 1, 2024 | Version v1
Publication Open

Domain adaptive learning for multi realm sentiment classification on big data

  • 1. University of Gujrat
  • 2. Information Technology University
  • 3. King Saud University
  • 4. Gachon University

Description

Machine learning techniques that rely on textual features or sentiment lexicons can lead to erroneous sentiment analysis. These techniques are especially vulnerable to domain-related difficulties, especially when dealing in Big data. In addition, labeling is time-consuming and supervised machine learning algorithms often lack labeled data. Transfer learning can help save time and obtain high performance with fewer datasets in this field. To cope this, we used a transfer learning-based Multi-Domain Sentiment Classification (MDSC) technique. We are able to identify the sentiment polarity of text in a target domain that is unlabeled by looking at reviews in a labelled source domain. This research aims to evaluate the impact of domain adaptation and measure the extent to which transfer learning enhances sentiment analysis outcomes. We employed transfer learning models BERT, RoBERTa, ELECTRA, and ULMFiT to improve the performance in sentiment analysis. We analyzed sentiment through various transformer models and compared the performance of LSTM and CNN. The experiments are carried on five publicly available sentiment analysis datasets, namely Hotel Reviews (HR), Movie Reviews (MR), Sentiment140 Tweets (ST), Citation Sentiment Corpus (CSC), and Bioinformatics Citation Corpus (BCC), to adapt multi-target domains. The performance of numerous models employing transfer learning from diverse datasets demonstrating how various factors influence the outputs.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمكن أن تؤدي تقنيات التعلم الآلي التي تعتمد على السمات النصية أو معاجم المشاعر إلى تحليل خاطئ للمشاعر. هذه التقنيات معرضة بشكل خاص للصعوبات المتعلقة بالمجال، خاصة عند التعامل مع البيانات الضخمة. بالإضافة إلى ذلك، فإن وضع العلامات يستغرق وقتًا طويلاً وغالبًا ما تفتقر خوارزميات التعلم الآلي الخاضعة للإشراف إلى البيانات المصنفة. يمكن أن يساعد نقل التعلم في توفير الوقت والحصول على أداء عالٍ مع مجموعات بيانات أقل في هذا المجال. وللتغلب على ذلك، استخدمنا تقنية تصنيف المشاعر متعدد المجالات (MDSC) القائمة على التعلم بالنقل. نحن قادرون على تحديد قطبية معنويات النص في مجال مستهدف غير مسمى من خلال النظر إلى المراجعات في مجال مصدر مسمى. يهدف هذا البحث إلى تقييم تأثير تكييف المجال وقياس مدى تعزيز تعلم النقل لنتائج تحليل المشاعر. استخدمنا نماذج تعلم التحويل BERT و RoBERTa و ELECTRA و ULMFiT لتحسين الأداء في تحليل المشاعر. قمنا بتحليل المعنويات من خلال نماذج المحولات المختلفة وقارنا أداء LSTM و CNN. يتم إجراء التجارب على خمس مجموعات بيانات متاحة للجمهور لتحليل المشاعر، وهي مراجعات الفنادق (HR)، ومراجعات الأفلام (MR)، وتغريدات Sentiment140 (ST)، و Citation Sentiment Corpus (CSC)، و Bioinformatics Citation Corpus (BCC)، لتكييف المجالات متعددة الأهداف. أداء العديد من النماذج التي تستخدم تعلم النقل من مجموعات بيانات متنوعة توضح كيف تؤثر العوامل المختلفة على المخرجات.

Translated Description (French)

Les techniques d'apprentissage automatique qui reposent sur des caractéristiques textuelles ou des lexiques de sentiment peuvent conduire à une analyse erronée du sentiment. Ces techniques sont particulièrement vulnérables aux difficultés liées au domaine, en particulier lorsqu'il s'agit de Big Data. En outre, l'étiquetage prend beaucoup de temps et les algorithmes d'apprentissage automatique supervisés manquent souvent de données étiquetées. L'apprentissage par transfert peut aider à gagner du temps et à obtenir des performances élevées avec moins d'ensembles de données dans ce domaine. Pour y faire face, nous avons utilisé une technique de classification des sentiments multi-domaines (MDSC) basée sur l'apprentissage par transfert. Nous sommes en mesure d'identifier la polarité de sentiment du texte dans un domaine cible qui n'est pas étiqueté en regardant les commentaires dans un domaine source étiqueté. Cette recherche vise à évaluer l'impact de l'adaptation du domaine et à mesurer dans quelle mesure l'apprentissage par transfert améliore les résultats de l'analyse des sentiments. Nous avons utilisé des modèles d'apprentissage par transfert BERT, RoBERTa, ELECTRA et ULMFiT pour améliorer les performances dans l'analyse des sentiments. Nous avons analysé le sentiment à travers différents modèles de transformateurs et comparé les performances de LSTM et CNN. Les expériences sont menées sur cinq ensembles de données d'analyse des sentiments accessibles au public, à savoir Hotel Reviews (HR), Movie Reviews (MR), Sentiment140 Tweets (ST), Citation Sentiment Corpus (CSC) et Bioinformatics Citation Corpus (BCC), pour adapter des domaines multi-cibles. La performance de nombreux modèles utilisant l'apprentissage par transfert à partir de divers ensembles de données démontrant comment divers facteurs influencent les résultats.

Translated Description (Spanish)

Las técnicas de aprendizaje automático que se basan en características textuales o léxicos de sentimientos pueden conducir a un análisis de sentimientos erróneo. Estas técnicas son especialmente vulnerables a las dificultades relacionadas con el dominio, especialmente cuando se trata de Big Data. Además, el etiquetado requiere mucho tiempo y los algoritmos de aprendizaje automático supervisados a menudo carecen de datos etiquetados. Transferir el aprendizaje puede ayudar a ahorrar tiempo y obtener un alto rendimiento con menos conjuntos de datos en este campo. Para hacer frente a esto, utilizamos una técnica de clasificación de sentimientos multidominio (MDSC) basada en el aprendizaje por transferencia. Podemos identificar la polaridad de sentimiento del texto en un dominio de destino que no está etiquetado observando las reseñas en un dominio de origen etiquetado. Esta investigación tiene como objetivo evaluar el impacto de la adaptación del dominio y medir hasta qué punto el aprendizaje por transferencia mejora los resultados del análisis de sentimientos. Empleamos los modelos de aprendizaje por transferencia BERT, RoBERTa, ELECTRA y ULMFiT para mejorar el rendimiento en el análisis de sentimientos. Analizamos el sentimiento a través de varios modelos de transformadores y comparamos el rendimiento de LSTM y CNN. Los experimentos se llevan a cabo en cinco conjuntos de datos de análisis de sentimientos disponibles públicamente, a saber, Hotel Reviews (HR), Movie Reviews (MR), Sentiment140 Tweets (ST), Citation Sentiment Corpus (CSC) y Bioinformatics Citation Corpus (BCC), para adaptar dominios multiobjetivo. El rendimiento de numerosos modelos que emplean el aprendizaje de transferencia de diversos conjuntos de datos que demuestran cómo diversos factores influyen en los resultados.

Files

journal.pone.0297028&type=printable.pdf

Files (2.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:8a24c793dfd2da41d0af0969e1ef7598
2.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
التعلم التكيفي في المجال لتصنيف المشاعر متعددة المجالات على البيانات الضخمة
Translated title (French)
Apprentissage adaptatif par domaine pour la classification des sentiments multidomaines sur les mégadonnées
Translated title (Spanish)
Aprendizaje adaptativo de dominio para la clasificación de sentimientos multirreino en big data

Identifiers

Other
https://openalex.org/W4393392000
DOI
10.1371/journal.pone.0297028

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1773704356
  • https://openalex.org/W1810499140
  • https://openalex.org/W1841827866
  • https://openalex.org/W1885086035
  • https://openalex.org/W1969667536
  • https://openalex.org/W2028274901
  • https://openalex.org/W2078309899
  • https://openalex.org/W2096044513
  • https://openalex.org/W2099990492
  • https://openalex.org/W2120615054
  • https://openalex.org/W2149167588
  • https://openalex.org/W2165698076
  • https://openalex.org/W2167660864
  • https://openalex.org/W2171468534
  • https://openalex.org/W2203890649
  • https://openalex.org/W2261473717
  • https://openalex.org/W2322777686
  • https://openalex.org/W2368278370
  • https://openalex.org/W2406561316
  • https://openalex.org/W2513534526
  • https://openalex.org/W2540860795
  • https://openalex.org/W2556605533
  • https://openalex.org/W2584429674
  • https://openalex.org/W2588144628
  • https://openalex.org/W2719091425
  • https://openalex.org/W2743481586
  • https://openalex.org/W2757541972
  • https://openalex.org/W2773290256
  • https://openalex.org/W2779179495
  • https://openalex.org/W2798717312
  • https://openalex.org/W2805102746
  • https://openalex.org/W2822523832
  • https://openalex.org/W2943360842
  • https://openalex.org/W2947899520
  • https://openalex.org/W2948589645
  • https://openalex.org/W2955109214
  • https://openalex.org/W2955854688
  • https://openalex.org/W2962739339
  • https://openalex.org/W2963012544
  • https://openalex.org/W2963026768
  • https://openalex.org/W2964046515
  • https://openalex.org/W2964236337
  • https://openalex.org/W2965855277
  • https://openalex.org/W3106003309
  • https://openalex.org/W3163685352
  • https://openalex.org/W4281689302
  • https://openalex.org/W4294306611
  • https://openalex.org/W4311970277
  • https://openalex.org/W54295067
  • https://openalex.org/W58103552
  • https://openalex.org/W89554208