Published January 1, 2023 | Version v1
Publication Open

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

  • 1. VNU University of Science
  • 2. Software (Spain)
  • 3. FPT University

Description

Emotion recognition is a crucial task for human conversation understanding. It becomes more challenging with the notion of multimodal data, e.g., language, voice, and facial expressions. As a typical solution, the global- and the local context information are exploited to predict the emotional label for every single sentence, i.e., utterance, in the dialogue. Specifically, the global representation could be captured via modeling of cross-modal interactions at the conversation level. The local one is often inferred using the temporal information of speakers or emotional shifts, which neglects vital factors at the utterance level. Additionally, most existing approaches take fused features of multiple modalities in an unified input without leveraging modality-specific representations. Motivating from these problems, we propose the Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction (CORECT), an novel neural network framework that effectively captures conversation-level cross-modality interactions and utterance-level temporal dependencies with the modality-specific manner for conversation understanding. Extensive experiments demonstrate the effectiveness of CORECT via its state-of-the-art results on the IEMOCAP and CMU-MOSEI datasets for the multimodal ERC task.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد التعرف على المشاعر مهمة حاسمة لفهم المحادثة البشرية. يصبح الأمر أكثر صعوبة مع مفهوم البيانات متعددة الوسائط، على سبيل المثال، اللغة والصوت وتعبيرات الوجه. كحل نموذجي، يتم استغلال معلومات السياق العالمي والمحلي للتنبؤ بالتسمية العاطفية لكل جملة واحدة، أي الكلام، في الحوار. على وجه التحديد، يمكن التقاط التمثيل العالمي من خلال نمذجة التفاعلات عبر الوسائط على مستوى المحادثة. غالبًا ما يتم استنتاج العامل المحلي باستخدام المعلومات الزمنية للمتحدثين أو التحولات العاطفية، والتي تهمل العوامل الحيوية على مستوى الكلام. بالإضافة إلى ذلك، تأخذ معظم النهج الحالية ميزات مدمجة لطرائق متعددة في مدخلات موحدة دون الاستفادة من التمثيلات الخاصة بالطرائق. انطلاقاً من هذه المشاكل، نقترح الشبكة العصبية للرسم البياني الزماني العلائقي مع التفاعل الإضافي متعدد الوسائط (CORECT)، وهو إطار شبكة عصبية جديد يلتقط بشكل فعال التفاعلات متعددة الوسائط على مستوى المحادثة والتبعيات الزمنية على مستوى الكلام بطريقة خاصة بالنمط لفهم المحادثة. تُظهر التجارب المكثفة فعالية CORECT من خلال نتائجها الحديثة على مجموعات بيانات IEMOCAP و CMU - MOSEI لمهمة ERC متعددة الوسائط.

Translated Description (French)

La reconnaissance des émotions est une tâche cruciale pour la compréhension de la conversation humaine. Cela devient plus difficile avec la notion de données multimodales, par exemple, la langue, la voix et les expressions faciales. En tant que solution typique, les informations de contexte global et local sont exploitées pour prédire l'étiquette émotionnelle de chaque phrase, c'est-à-dire l'énoncé, dans le dialogue. Plus précisément, la représentation globale pourrait être capturée via la modélisation des interactions intermodales au niveau de la conversation. Le local est souvent déduit à l'aide des informations temporelles des locuteurs ou des changements émotionnels, qui négligent des facteurs vitaux au niveau de l'énoncé. En outre, la plupart des approches existantes prennent des caractéristiques fusionnées de multiples modalités dans une entrée unifiée sans tirer parti des représentations spécifiques aux modalités. Motivés par ces problèmes, nous proposons le réseau neuronal de graphes temporels relationnels avec interaction intermodale auxiliaire (CORECT), un nouveau cadre de réseau neuronal qui capture efficacement les interactions intermodales au niveau de la conversation et les dépendances temporelles au niveau de l'énoncé avec la manière spécifique à la modalité pour la compréhension de la conversation. Des expériences approfondies démontrent l'efficacité de CORECT via ses résultats de pointe sur les ensembles de données IEMOCAP et CMU-MOSEI pour la tâche ERC multimodale.

Translated Description (Spanish)

El reconocimiento de emociones es una tarea crucial para la comprensión de la conversación humana. Se vuelve más desafiante con la noción de datos multimodales, por ejemplo, lenguaje, voz y expresiones faciales. Como solución típica, la información del contexto global y local se explota para predecir la etiqueta emocional de cada oración, es decir, la expresión, en el diálogo. Específicamente, la representación global podría capturarse a través del modelado de interacciones intermodales a nivel de conversación. El local a menudo se infiere utilizando la información temporal de los hablantes o los cambios emocionales, lo que descuida los factores vitales a nivel de expresión. Además, la mayoría de los enfoques existentes toman características fusionadas de múltiples modalidades en una entrada unificada sin aprovechar las representaciones específicas de la modalidad. Motivados por estos problemas, proponemos la Red Neuronal Relacional de Gráficos Temporales con Interacción Auxiliar de Modalidad Cruzada (CORECT), un novedoso marco de red neuronal que captura de manera efectiva las interacciones de modalidad cruzada a nivel de conversación y las dependencias temporales a nivel de expresión con la forma específica de modalidad para la comprensión de la conversación. Amplios experimentos demuestran la efectividad de CORECT a través de sus resultados de vanguardia en los conjuntos de datos IEMOCAP y CMU-MOSEI para la tarea multimodal del ERC.

Files

2023.emnlp-main.937.pdf.pdf

Files (685.1 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:9b982a56226ec700cf40dfe26b63e163
685.1 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
فهم المحادثة باستخدام الشبكات العصبية للرسم البياني الزماني العلائقي مع التفاعل الإضافي متعدد الوسائط
Translated title (French)
Compréhension de la conversation à l'aide de réseaux neuronaux de graphes temporels relationnels avec interaction intermodale auxiliaire
Translated title (Spanish)
Comprensión de la conversación mediante el uso de redes neuronales de gráficos temporales relacionales con interacción auxiliar de modalidad cruzada

Identifiers

Other
https://openalex.org/W4389519350
DOI
10.18653/v1/2023.emnlp-main.937

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Vietnam

References

  • https://openalex.org/W1501856433
  • https://openalex.org/W2116341502
  • https://openalex.org/W2146334809
  • https://openalex.org/W2191779130
  • https://openalex.org/W2604314403
  • https://openalex.org/W2619383789
  • https://openalex.org/W2740550900
  • https://openalex.org/W2787581402
  • https://openalex.org/W2805662932
  • https://openalex.org/W2807126412
  • https://openalex.org/W2883409523
  • https://openalex.org/W2891359673
  • https://openalex.org/W2955233641
  • https://openalex.org/W2963702064
  • https://openalex.org/W2963873807
  • https://openalex.org/W2964015378
  • https://openalex.org/W2964051877
  • https://openalex.org/W2965453734
  • https://openalex.org/W2970641574
  • https://openalex.org/W2984074464
  • https://openalex.org/W2985882473
  • https://openalex.org/W3007282427
  • https://openalex.org/W3045969489
  • https://openalex.org/W3080495370
  • https://openalex.org/W3096125675
  • https://openalex.org/W3098556456
  • https://openalex.org/W3167098825
  • https://openalex.org/W3173751215
  • https://openalex.org/W3175552668
  • https://openalex.org/W3176399185
  • https://openalex.org/W4206326349
  • https://openalex.org/W4220887861
  • https://openalex.org/W4287887917
  • https://openalex.org/W4289329331
  • https://openalex.org/W4297733535
  • https://openalex.org/W4380355289
  • https://openalex.org/W4385245566
  • https://openalex.org/W4385571916
  • https://openalex.org/W4386076442