Published January 1, 2021 | Version v1
Publication Open

Context-Based Feature Technique for Sarcasm Identification in Benchmark Datasets Using Deep Learning and BERT Model

  • 1. University of Malaya
  • 2. Federal University Lafia

Description

Sarcasm is a complicated linguistic term commonly found in e-commerce and social media sites.Failure to identify sarcastic utterances in Natural Language Processing applications such as sentiment analysis and opinion mining will confuse classification algorithms and generate false results.Several studies on sarcasm detection have utilised different learning algorithms.However, most of these learning models have always focused on the contents of expression only, leaving the contextual information in isolation.As a result, they failed to capture the contextual information in the sarcastic expression.Secondly, many deep learning methods in NLP uses a word embedding learning algorithm as a standard approach for feature vector representation, which ignores the sentiment polarity of the words in the sarcastic expression.This study proposes a context-based feature technique for sarcasm Identification using the deep learning model, BERT model, and conventional machine learning to address the issues mentioned above.Two Twitter and Internet Argument Corpus, version two (IAC-v2) benchmark datasets were utilised for the classification using the three learning models.The first model uses embedding-based representation via deep learning model with bidirectional long short term memory (Bi-LSTM), a variant of Recurrent Neural Network (RNN), by applying Global Vector representation (GloVe) for the construction of word embedding and context learning.The second model is based on Transformer using a pre-trained Bidirectional Encoder representation and Transformer (BERT).In contrast, the third model is based on feature fusion that comprised BERT feature, sentiment related, syntactic, and GloVe embedding feature with conventional machine learning.The effectiveness of this technique is tested with various evaluation experiments.However, the technique's evaluation on two Twitter benchmark datasets attained 98.5% and 98.0% highest precision, respectively.The IAC-v2 dataset, on the other hand, achieved the highest precision of 81.2%, which shows the significance of the proposed technique over the baseline approaches for sarcasm analysis.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

السخرية مصطلح لغوي معقد شائع في التجارة الإلكترونية ومواقع التواصل الاجتماعي. سيؤدي الفشل في تحديد الألفاظ الساخرة في تطبيقات معالجة اللغة الطبيعية مثل تحليل المشاعر واستخراج الآراء إلى الخلط بين خوارزميات التصنيف وتوليد نتائج خاطئة. استخدمت العديد من الدراسات حول اكتشاف السخرية خوارزميات تعلم مختلفة. ومع ذلك، ركزت معظم نماذج التعلم هذه دائمًا على محتويات التعبير فقط، تاركة المعلومات السياقية في عزلة. ونتيجة لذلك، فشلت في التقاط المعلومات السياقية في التعبير الساخر. ثانيًا، تستخدم العديد من طرق التعلم العميق في البرمجة اللغوية العصبية خوارزمية تعلم تضمين الكلمات كنهج قياسي لتمثيل متجه الميزة، والذي يتجاهل قطبية المشاعر للكلمات في التعبير الساخر. تقترح هذه الدراسة تقنية ميزة قائمة على السياق للتعرف على السخرية باستخدام نموذج التعلم العميق ونموذج بيرت والتعلم الآلي التقليدي لمعالجة المشكلات المذكورة أعلاه. تم استخدام مجموعتي بيانات مرجعية من تويتر وإنترنت، الإصدار الثاني (IAC - v2) للتصنيف باستخدام نماذج التعلم الثلاثة. يستخدم النموذج الأول التمثيل القائم على التضمين عبر نموذج التعلم العميق مع مجموعة بيانات قصيرة طويلة ثنائية الاتجاه مصطلح الذاكرة (Bi - LSTM)، وهو متغير من الشبكة العصبية المتكررة (RNN)، من خلال تطبيق تمثيل المتجهات العالمية (GloVe) لبناء تضمين الكلمات وتعلم السياق. يعتمد النموذج الثاني على المحول باستخدام تمثيل التشفير ثنائي الاتجاه المدرب مسبقًا والمحول (BERT). في المقابل، يعتمد النموذج الثالث على دمج الميزات التي تتألف من ميزة BERT، والمشاعر ذات الصلة، وميزة التضمين النحوي، و GloVe مع التعلم الآلي التقليدي. يتم اختبار فعالية هذه التقنية مع تجارب التقييم المختلفة. ومع ذلك، حقق تقييم التقنية على مجموعتي بيانات مرجعيتين على تويتر أعلى دقة بنسبة 98.5 ٪ و 98.0 ٪، على التوالي. حققت مجموعة بيانات IAC - v2، من ناحية أخرى، أعلى دقة بنسبة 81.2 ٪، مما يدل على أهمية التقنية المقترحة على نهج خط الأساس لتحليل السخرية.

Translated Description (French)

Le sarcasme est un terme linguistique compliqué que l'on trouve couramment dans le commerce électronique et les sites de médias sociaux. Le fait de ne pas identifier les énoncés sarcastiques dans les applications de traitement du langage naturel telles que l'analyse des sentiments et l'exploration d'opinions confondra les algorithmes de classification et générera de faux résultats. Plusieurs études sur la détection du sarcasme ont utilisé différents algorithmes d'apprentissage. Cependant, la plupart de ces modèles d'apprentissage se sont toujours concentrés sur le contenu de l'expression uniquement, laissant les informations contextuelles isolées. En conséquence, ils n'ont pas réussi à capturer les informations contextuelles dans l'expression sarcastique. Deuxièmement, de nombreuses méthodes d'apprentissage en profondeur en PNL utilisent un algorithme d'apprentissage par intégration de mots comme approche standard pour la représentation vectorielle des caractéristiques, qui ignore la polarité des sentiments des mots dans l'expression sarcastique. Cette étude propose une technique de caractéristiques basée sur le contexte pour l'identification du sarcasme en utilisant le modèle d'apprentissage en profondeur, le modèle BERT et l'apprentissage automatique conventionnel pour résoudre les problèmes mentionnés ci-dessus. Deux ensembles de données de référence Twitter et Internet Argument Corpus, version deux (IAC-v2) ont été utilisés pour la classification en utilisant les trois modèles d'apprentissage. Le premier modèle utilise une représentation basée sur l'intégration via un modèle d'apprentissage en profondeur avec un long court bidirectionnel mémoire de termes (Bi-LSTM), une variante du réseau neuronal récurrent (RNN), en appliquant la représentation vectorielle globale (GloVe) pour la construction de l'intégration de mots et l'apprentissage contextuel. Le deuxième modèle est basé sur Transformer en utilisant une représentation d'encodeur bidirectionnel et un transformateur (BERT) pré-entraînés. En revanche, le troisième modèle est basé sur la fusion de fonctionnalités qui comprenait la fonctionnalité BERT, la fonctionnalité liée au sentiment, la fonctionnalité syntaxique et l'intégration GloVe avec l'apprentissage automatique conventionnel. L'efficacité de cette technique est testée avec diverses expériences d'évaluation. Cependant, l'évaluation de la technique sur deux ensembles de données de référence Twitter a atteint 98,5 % et 98,0 % de précision la plus élevée, respectivement. L'ensemble de données IAC-v2, d'autre part, a atteint la plus grande précision de 81,2 %, ce qui montre l'importance de la technique proposée par rapport aux approches de base pour l'analyse du sarcasme.

Translated Description (Spanish)

El sarcasmo es un término lingüístico complicado que se encuentra comúnmente en el comercio electrónico y los sitios de redes sociales. Si no se identifican las expresiones sarcásticas en las aplicaciones de procesamiento del lenguaje natural, como el análisis de sentimientos y la minería de opiniones, se confundirán los algoritmos de clasificación y se generarán resultados falsos. Varios estudios sobre la detección del sarcasmo han utilizado diferentes algoritmos de aprendizaje. Sin embargo, la mayoría de estos modelos de aprendizaje siempre se han centrado únicamente en los contenidos de la expresión, dejando la información contextual aislada. Como resultado, no lograron capturar la información contextual en la expresión sarcástica. En segundo lugar, muchos métodos de aprendizaje profundo en PNL utilizan un algoritmo de aprendizaje de incrustación de palabras como enfoque estándar para la representación del vector de características, que ignora la polaridad del sentimiento de las palabras en la expresión sarcástica. Este estudio propone una técnica de características basada en el contexto para la identificación del sarcasmo utilizando el modelo de aprendizaje profundo, el modelo BERT y el aprendizaje automático convencional para abordar los problemas mencionados anteriormente. Se utilizaron dos conjuntos de datos de referencia de Twitter e Internet Argument Corpus, versión dos (IAC-v2) para la clasificación utilizando los tres modelos de aprendizaje. El primer modelo utiliza la representación basada en incrustación a través del modelo de aprendizaje profundo con memoria de términos (Bi-LSTM), una variante de la red neuronal recurrente (RNN), mediante la aplicación de la representación vectorial global (GloVe) para la construcción de la incrustación de palabras y el aprendizaje de contexto. El segundo modelo se basa en Transformer utilizando una representación de codificador bidireccional preentrenada y Transformer (BERT). En contraste, el tercer modelo se basa en la fusión de características que comprendía la característica BERT, la característica relacionada con el sentimiento, la característica sintáctica y la característica de incrustación GloVe con el aprendizaje automático convencional. La efectividad de esta técnica se prueba con varios experimentos de evaluación. Sin embargo, la evaluación de la técnica en dos conjuntos de datos de referencia de Twitter alcanzó el 98.5% y el 98.0% de la precisión más alta, respectivamente. El conjunto de datos IAC-v2, por otro lado, logró la precisión más alta del 81.2%, lo que muestra la importancia de la técnica propuesta sobre los enfoques de referencia para el análisis de sarcasmo.

Files

09383219.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:64ab9b09efdb962e0be425ea9ffabc8d
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تقنية الميزة القائمة على السياق لتحديد السخرية في مجموعات البيانات المعيارية باستخدام التعلم العميق ونموذج بيرت
Translated title (French)
Technique de fonctionnalité basée sur le contexte pour l'identification des sarcasmes dans les ensembles de données de référence à l'aide de l'apprentissage profond et du modèle BERT
Translated title (Spanish)
Técnica de función basada en el contexto para la identificación del sarcasmo en conjuntos de datos de referencia utilizando el aprendizaje profundo y el modelo BERT

Identifiers

Other
https://openalex.org/W3138407803
DOI
10.1109/access.2021.3068323

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Nigeria

References

  • https://openalex.org/W153995565
  • https://openalex.org/W1987425720
  • https://openalex.org/W2005708641
  • https://openalex.org/W2011432097
  • https://openalex.org/W2021137987
  • https://openalex.org/W2024011160
  • https://openalex.org/W2059724699
  • https://openalex.org/W2079735306
  • https://openalex.org/W2108598243
  • https://openalex.org/W2122985140
  • https://openalex.org/W2183500697
  • https://openalex.org/W2250480277
  • https://openalex.org/W2250539671
  • https://openalex.org/W2252381721
  • https://openalex.org/W2306941105
  • https://openalex.org/W2489370933
  • https://openalex.org/W2512532697
  • https://openalex.org/W2513138008
  • https://openalex.org/W2536583325
  • https://openalex.org/W2547868665
  • https://openalex.org/W2584429674
  • https://openalex.org/W2605134724
  • https://openalex.org/W2608018997
  • https://openalex.org/W2739890004
  • https://openalex.org/W2753786217
  • https://openalex.org/W2760057941
  • https://openalex.org/W2765369538
  • https://openalex.org/W2806686806
  • https://openalex.org/W2884001105
  • https://openalex.org/W2885267535
  • https://openalex.org/W2907687474
  • https://openalex.org/W2913873497
  • https://openalex.org/W2921154353
  • https://openalex.org/W2939314714
  • https://openalex.org/W2944152053
  • https://openalex.org/W2962681323
  • https://openalex.org/W2962692632
  • https://openalex.org/W2976161557
  • https://openalex.org/W2990477619
  • https://openalex.org/W2990612494
  • https://openalex.org/W2991170427
  • https://openalex.org/W3014870144
  • https://openalex.org/W3021441477
  • https://openalex.org/W3023211633
  • https://openalex.org/W3034757448
  • https://openalex.org/W3039503982
  • https://openalex.org/W3100602110
  • https://openalex.org/W3107448870
  • https://openalex.org/W3118913631