Feature selection enhancement and feature space visualization for speech-based emotion recognition
Creators
- 1. COMSATS University Islamabad
- 2. University of Azad Jammu and Kashmir
- 3. Hamad bin Khalifa University
Description
Robust speech emotion recognition relies on the quality of the speech features. We present speech features enhancement strategy that improves speech emotion recognition. We used the INTERSPEECH 2010 challenge feature-set. We identified subsets from the features set and applied principle component analysis to the subsets. Finally, the features are fused horizontally. The resulting feature set is analyzed using t-distributed neighbour embeddings (t-SNE) before the application of features for emotion recognition. The method is compared with the state-of-the-art methods used in the literature. The empirical evidence is drawn using two well-known datasets: Berlin Emotional Speech Dataset (EMO-DB) and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) for two languages, German and English, respectively. Our method achieved an average recognition gain of 11.5% for six out of seven emotions for the EMO-DB dataset, and 13.8% for seven out of eight emotions for the RAVDESS dataset as compared to the baseline study.
Translated Descriptions
Translated Description (Arabic)
يعتمد التعرف القوي على عواطف الكلام على جودة ميزات الكلام. نقدم استراتيجية تعزيز ميزات الكلام التي تحسن التعرف على عواطف الكلام. استخدمنا مجموعة ميزات تحدي INTERSPEECH 2010. حددنا مجموعات فرعية من مجموعة الميزات وطبقنا تحليل المكون الأساسي على المجموعات الفرعية. أخيرًا، يتم دمج الميزات أفقيًا. يتم تحليل مجموعة الميزات الناتجة باستخدام التضمينات المجاورة الموزعة على شكل حرف t (t - SNE) قبل تطبيق ميزات التعرف على المشاعر. تتم مقارنة الطريقة مع أحدث الأساليب المستخدمة في الأدبيات. يتم استخلاص الأدلة التجريبية باستخدام مجموعتي بيانات معروفتين: مجموعة بيانات برلين للكلام العاطفي (EMO - DB) وقاعدة بيانات رايرسون السمعية والبصرية للكلام العاطفي والأغنية (RAVDESS) للغتين، الألمانية والإنجليزية، على التوالي. حققت طريقتنا متوسط كسب إدراك بنسبة 11.5 ٪ لستة من أصل سبعة عواطف لمجموعة بيانات EMO - DB، و 13.8 ٪ لسبعة من أصل ثمانية عواطف لمجموعة بيانات RAVDESS مقارنة بالدراسة الأساسية.Translated Description (French)
La reconnaissance robuste des émotions de la parole repose sur la qualité des caractéristiques de la parole. Nous présentons une stratégie d'amélioration des caractéristiques de la parole qui améliore la reconnaissance des émotions de la parole Nous avons utilisé l'ensemble de fonctionnalités du défi INTERSPEECH 2010. Nous avons identifié des sous-ensembles à partir de l'ensemble des caractéristiques et appliqué l'analyse des composants principaux aux sous-ensembles. Enfin, les caractéristiques sont fusionnées horizontalement. L'ensemble de fonctionnalités résultant est analysé à l'aide d'encastrements voisins distribués en t (t-SNE) avant l'application de fonctionnalités pour la reconnaissance des émotions. La méthode est comparée aux méthodes de pointe utilisées dans la littérature. Les preuves empiriques sont tirées à l'aide de deux ensembles de données bien connus : Berlin Emotional Speech Dataset (EMO-DB) et Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) pour deux langues, l'allemand et l'anglais, respectivement. Notre méthode a permis d'obtenir un gain de reconnaissance moyen de 11,5 % pour six des sept émotions de l'ensemble de données EMO-DB, et de 13,8 % pour sept des huit émotions de l'ensemble de données RAVDESS par rapport à l'étude de référence.Translated Description (Spanish)
El reconocimiento sólido de las emociones del habla depende de la calidad de las características del habla. Presentamos una estrategia de mejora de las características del habla que mejora el reconocimiento de las emociones del habla. Utilizamos el conjunto de funciones del desafío INTERSPEECH 2010. Identificamos subconjuntos del conjunto de características y aplicamos el análisis de componentes principales a los subconjuntos. Finalmente, las características se fusionan horizontalmente. El conjunto de características resultante se analiza utilizando incrustaciones vecinas distribuidas t (t-SNE) antes de la aplicación de características para el reconocimiento de emociones. El método se compara con los métodos de última generación utilizados en la literatura. La evidencia empírica se basa en dos conjuntos de datos bien conocidos: Berlin Emotional Speech Dataset (EMO-DB) y Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) para dos idiomas, alemán e inglés, respectivamente. Nuestro método logró una ganancia de reconocimiento promedio del 11,5% para seis de las siete emociones para el conjunto de datos EMO-DB, y del 13,8% para siete de las ocho emociones para el conjunto de datos RAVDESS en comparación con el estudio de referencia.Files
2208.09269.pdf
Files
(18.6 MB)
Name | Size | Download all |
---|---|---|
md5:9863eae6e3fe901e4eeabe95b4c65a9a
|
18.6 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحسين اختيار الميزات وتصور مساحة الميزات للتعرف على المشاعر القائمة على الكلام
- Translated title (French)
- Amélioration de la sélection des fonctionnalités et visualisation de l'espace des fonctionnalités pour la reconnaissance des émotions basée sur la parole
- Translated title (Spanish)
- Mejora de la selección de características y visualización del espacio de características para el reconocimiento de emociones basado en el habla
Identifiers
- Other
- https://openalex.org/W4308630605
- DOI
- 10.7717/peerj-cs.1091
References
- https://openalex.org/W147964346
- https://openalex.org/W1501669607
- https://openalex.org/W1536822605
- https://openalex.org/W175750906
- https://openalex.org/W1977040817
- https://openalex.org/W2003837801
- https://openalex.org/W2023937851
- https://openalex.org/W2030739378
- https://openalex.org/W2036713025
- https://openalex.org/W2046521454
- https://openalex.org/W2074788634
- https://openalex.org/W2077029006
- https://openalex.org/W2080576537
- https://openalex.org/W2102953093
- https://openalex.org/W2109138290
- https://openalex.org/W2111926505
- https://openalex.org/W2161372178
- https://openalex.org/W2171221410
- https://openalex.org/W2295124130
- https://openalex.org/W2542056686
- https://openalex.org/W2549037781
- https://openalex.org/W2773759256
- https://openalex.org/W2790631404
- https://openalex.org/W2803098682
- https://openalex.org/W2803193013
- https://openalex.org/W2803202348
- https://openalex.org/W2809863446
- https://openalex.org/W2899041995
- https://openalex.org/W2904938641
- https://openalex.org/W2982155336
- https://openalex.org/W2994718079
- https://openalex.org/W2997399314
- https://openalex.org/W3003165619
- https://openalex.org/W4287990768