GCF2-Net: global-aware cross-modal feature fusion network for speech emotion recognition
- 1. Anhui University of Finance and Economics
- 2. University of Science and Technology of China
Description
Emotion recognition plays an essential role in interpersonal communication. However, existing recognition systems use only features of a single modality for emotion recognition, ignoring the interaction of information from the different modalities. Therefore, in our study, we propose a global-aware Cross-modal feature Fusion Network (GCF2-Net) for recognizing emotion. We construct a residual cross-modal fusion attention module (ResCMFA) to fuse information from multiple modalities and design a global-aware module to capture global details. More specifically, we first use transfer learning to extract wav2vec 2.0 features and text features fused by the ResCMFA module. Then, cross-modal fusion features are fed into the global-aware module to capture the most essential emotional information globally. Finally, the experiment results have shown that our proposed method has significant advantages than state-of-the-art methods on the IEMOCAP and MELD datasets, respectively.
Translated Descriptions
Translated Description (Arabic)
يلعب التعرف على العواطف دورًا أساسيًا في التواصل بين الأشخاص. ومع ذلك، لا تستخدم أنظمة التعرف الحالية سوى ميزات طريقة واحدة للتعرف على المشاعر، متجاهلة تفاعل المعلومات من الطرائق المختلفة. لذلك، في دراستنا، نقترح ميزة عالمية عبر الوسائط شبكة الانصهار (GCF2 - Net) للتعرف على العاطفة. نقوم ببناء وحدة تركيز الاندماج عبر الوسائط المتبقية (ResCMFA) لدمج المعلومات من طرائق متعددة وتصميم وحدة ذات وعي عالمي لالتقاط التفاصيل العالمية. وبشكل أكثر تحديدًا، نستخدم أولاً تعلم النقل لاستخراج ميزات wav2vec 2.0 وميزات النص التي تنصهر بواسطة وحدة ResCMFA. بعد ذلك، يتم تغذية ميزات الاندماج عبر الوسائط في وحدة الوعي العالمي لالتقاط المعلومات العاطفية الأكثر أهمية على مستوى العالم. أخيرًا، أظهرت نتائج التجربة أن طريقتنا المقترحة لها مزايا كبيرة من أحدث الطرق في مجموعات بيانات IEMOCAP و MELD، على التوالي.Translated Description (French)
La reconnaissance des émotions joue un rôle essentiel dans la communication interpersonnelle. Cependant, les systèmes de reconnaissance existants n'utilisent que les caractéristiques d'une seule modalité de reconnaissance des émotions, ignorant l'interaction des informations provenant des différentes modalités. Par conséquent, dans notre étude, nous proposons une fonctionnalité multimodale globale Fusion Network (GCF2-Net) pour reconnaître les émotions. Nous construisons un module d'attention à la fusion intermodale résiduelle (ResCMFA) pour fusionner les informations provenant de multiples modalités et concevons un module global pour capturer les détails globaux. Plus précisément, nous utilisons d'abord l'apprentissage par transfert pour extraire les fonctionnalités de wav2vec 2.0 et les fonctionnalités de texte fusionnées par le module ResCMFA. Ensuite, les fonctionnalités de fusion intermodale sont introduites dans le module global pour capturer les informations émotionnelles les plus essentielles à l'échelle mondiale. Enfin, les résultats de l'expérience ont montré que notre méthode proposée présente des avantages significatifs par rapport aux méthodes de pointe sur les ensembles de données IEMOCAP ET MELD, respectivement.Translated Description (Spanish)
El reconocimiento de emociones juega un papel esencial en la comunicación interpersonal. Sin embargo, los sistemas de reconocimiento existentes utilizan solo características de una sola modalidad para el reconocimiento de emociones, ignorando la interacción de la información de las diferentes modalidades. Por lo tanto, en nuestro estudio, proponemos una función multimodal global Fusion Network (GCF2-Net) para reconocer emociones. Construimos un módulo de atención de fusión intermodal residual (ResCMFA) para fusionar información de múltiples modalidades y diseñamos un módulo con conciencia global para capturar detalles globales. Más específicamente, primero usamos el aprendizaje de transferencia para extraer características de wav2vec 2.0 y características de texto fusionadas por el módulo ResCMFA. Luego, las funciones de fusión intermodal se introducen en el módulo con conciencia global para capturar la información emocional más esencial a nivel mundial. Finalmente, los resultados del experimento han demostrado que nuestro método propuesto tiene ventajas significativas sobre los métodos de última generación en los conjuntos de datos IEMOCAP Y MELD, respectivamente.Files
pdf.pdf
Files
(1.2 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:991c25773e8278f94f3ff7cf48b54ea4
|
1.2 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- GCF2 - Net: شبكة دمج الميزات متعددة الوسائط ذات الوعي العالمي للتعرف على مشاعر الكلام
- Translated title (French)
- GCF2-Net : réseau de fusion de fonctionnalités multimodales mondialement reconnu pour la reconnaissance des émotions vocales
- Translated title (Spanish)
- GCF2-Net: red de fusión de características multimodal con reconocimiento global para el reconocimiento de emociones del habla
Identifiers
- Other
- https://openalex.org/W4377565691
- DOI
- 10.3389/fnins.2023.1183132
References
- https://openalex.org/W1614298861
- https://openalex.org/W1995663108
- https://openalex.org/W2016618864
- https://openalex.org/W2043545076
- https://openalex.org/W2111926505
- https://openalex.org/W2114524997
- https://openalex.org/W2137639365
- https://openalex.org/W2144012961
- https://openalex.org/W2250539671
- https://openalex.org/W2327501763
- https://openalex.org/W2609916062
- https://openalex.org/W2740550900
- https://openalex.org/W2792191740
- https://openalex.org/W2803098682
- https://openalex.org/W2883853499
- https://openalex.org/W2889169802
- https://openalex.org/W2912728762
- https://openalex.org/W2937584914
- https://openalex.org/W2946073932
- https://openalex.org/W2963104701
- https://openalex.org/W2963341956
- https://openalex.org/W2963686995
- https://openalex.org/W2963800675
- https://openalex.org/W2964216663
- https://openalex.org/W2965373594
- https://openalex.org/W2972463723
- https://openalex.org/W3015988193
- https://openalex.org/W3035020961
- https://openalex.org/W3088631780
- https://openalex.org/W3096723250
- https://openalex.org/W3096963953
- https://openalex.org/W3115382905
- https://openalex.org/W3116016199
- https://openalex.org/W3120680448
- https://openalex.org/W3132941258
- https://openalex.org/W3160039712
- https://openalex.org/W3160183718
- https://openalex.org/W3163086403
- https://openalex.org/W3163157357
- https://openalex.org/W3183891373
- https://openalex.org/W3196711847
- https://openalex.org/W3197580070
- https://openalex.org/W3197642003
- https://openalex.org/W3206189675
- https://openalex.org/W3211224152
- https://openalex.org/W3211488063
- https://openalex.org/W3215440557
- https://openalex.org/W4220656408
- https://openalex.org/W4223460604
- https://openalex.org/W4225266919
- https://openalex.org/W4225635674
- https://openalex.org/W4226104836
- https://openalex.org/W4240135147
- https://openalex.org/W4283016277
- https://openalex.org/W4285106979
- https://openalex.org/W4285168274
- https://openalex.org/W4287871810
- https://openalex.org/W4291636964
- https://openalex.org/W4296070199
- https://openalex.org/W4296786632
- https://openalex.org/W4297841446
- https://openalex.org/W4297841880
- https://openalex.org/W4297841926
- https://openalex.org/W4299280181
- https://openalex.org/W4301204483
- https://openalex.org/W4303422666
- https://openalex.org/W4309799497
- https://openalex.org/W4309801937
- https://openalex.org/W4310991244
- https://openalex.org/W4321480413
- https://openalex.org/W4323644177
- https://openalex.org/W4394645241