Differentiable Measures for Speech Spectral Modeling
- 1. Universidade de São Paulo
- 2. Universidade Federal de Lavras
Description
Autoregressive models for the envelope of speech power spectral densities (PSDs) are refined by the self-supervised spectral learning machine (S3LM) provided with differentiable spectral objective functions, including the Itakura-Saito divergence (ISD), the Kullback-Leibler divergence (KLD), the reverse KLD (RKLD) and the log spectral distortion (LSD), which display more significant results. However, in order to assess the models more perceptually, a method is proposed based upon perturbations around perfect reconstruction analysis-synthesis configurations. In the cross-excitation analysis-synthesis assessment (CEASA) method, the residual signals generated by analysis filters of the spectral models are injected as excitation into the synthesis filters derived from the same and other models in order to be evaluated by the perceptual evaluation of speech quality (PESQ) and Itakura divergence (ID), which are averaged over a set of models obtained using the objective functions mentioned above. The results lead to a superior performance when the RKLD is used as the loss function for the estimation of the spectral models with the ISD ranking close behind. The focus of these divergences on the spectral peaks is argued and pointed as the most important factor for this behavior. Specifically, using the PESQ scores obtained with CEASA, the RKLD loss is found to improve the performance by 1.0%, 4.0% and 19.3% with respect to the open-loop analysis, the KLD and the LSD models, respectively, while the corresponding improvements for the ISD loss are 0.1%, 3.0% and 18.2%, and the RKLD models excel the ISD models by 1.0% on average. Even though the spectral measures alone are not able to unequivocally distinguish the better of the two, CEASA is shown to have enough sensitivity to distinguish their performances. In summary, the learning machine S3LM fits models for the short-term spectral envelope of speech and, for the evaluation of its performance under several differentiable loss functions, the CEASA assessment tool has been developed. In addition, CEASA may be used for other assessments connected with speech analysis and synthesis.
Translated Descriptions
Translated Description (Arabic)
يتم تنقيح النماذج الانحدارية الذاتية لمغلف الكثافة الطيفية لقدرة الكلام (PSDs) بواسطة آلة التعلم الطيفي ذاتية الإشراف (S3LM) المزودة بوظائف موضوعية طيفية قابلة للاختلاف، بما في ذلك تباعد إتاكورا- سايتو (ISD)، وتباعد كولباك- ليبلر (KLD)، وتباعد KLD العكسي (RKLD) والتشوه الطيفي اللوغاريتمي (LSD)، والتي تعرض نتائج أكثر أهمية. ومع ذلك، من أجل تقييم النماذج بشكل أكثر إدراكًا، يتم اقتراح طريقة بناءً على الاضطرابات حول تكوينات تحليل وتوليف إعادة الإعمار المثالية. في طريقة تقييم التحليل والتوليف عبر الاستثارة (CEASA)، يتم حقن الإشارات المتبقية الناتجة عن مرشحات التحليل للنماذج الطيفية كإثارة في مرشحات التخليق المشتقة من نفس النماذج وغيرها من النماذج من أجل تقييمها من خلال التقييم الإدراكي لجودة الكلام (PESQ) وتباعد إيتاكورا (ID)، والتي يتم حساب متوسطها على مجموعة من النماذج التي تم الحصول عليها باستخدام الوظائف الموضوعية المذكورة أعلاه. تؤدي النتائج إلى أداء متفوق عند استخدام RKLD كدالة خسارة لتقدير النماذج الطيفية مع ترتيب ISD بالقرب منها. يُناقش تركيز هذه الاختلافات على القمم الطيفية ويُشار إليها على أنها العامل الأكثر أهمية لهذا السلوك. على وجه التحديد، باستخدام درجات PESQ التي تم الحصول عليها مع CEASA، تم العثور على خسارة RKLD لتحسين الأداء بنسبة 1.0 ٪ و 4.0 ٪ و 19.3 ٪ فيما يتعلق بتحليل الحلقة المفتوحة، ونماذج KLD و LSD، على التوالي، في حين أن التحسينات المقابلة لخسارة ISD هي 0.1 ٪ و 3.0 ٪ و 18.2 ٪، وتتفوق نماذج RKLD على نماذج ISD بنسبة 1.0 ٪ في المتوسط. على الرغم من أن المقاييس الطيفية وحدها غير قادرة على التمييز بشكل لا لبس فيه بين الأفضل من الاثنين، فقد تبين أن CEASA لديها حساسية كافية لتمييز أدائها. باختصار، تناسب آلة التعلم S3LM نماذج للغلاف الطيفي قصير المدى للكلام، ولتقييم أدائها في إطار العديد من وظائف الخسارة القابلة للاختلاف، تم تطوير أداة تقييم CEASA. بالإضافة إلى ذلك، يمكن استخدام CEASA للتقييمات الأخرى المرتبطة بتحليل الكلام وتوليفه.Translated Description (French)
Les modèles autorégressifs pour l'enveloppe des densités spectrales de puissance vocale (PSD) sont affinés par la machine d'apprentissage spectral auto-supervisée (S3LM) dotée de fonctions objectives spectrales différentiables, notamment la divergence Itakura-Saito (ISD), la divergence Kullback-Leibler (KLD), la KLD inverse (RKLD) et la distorsion spectrale logarithmique (LSD), qui affichent des résultats plus significatifs. Cependant, afin d'évaluer les modèles de manière plus perceptuelle, une méthode est proposée basée sur des perturbations autour de configurations parfaites d'analyse-synthèse de reconstruction. Dans la méthode d'analyse-synthèse d'excitation croisée (CEASA), les signaux résiduels générés par les filtres d'analyse des modèles spectraux sont injectés sous forme d'excitation dans les filtres de synthèse dérivés du même modèle et d'autres modèles afin d'être évalués par l'évaluation perceptuelle de la qualité de la parole (PESQ) et de la divergence d'Itakura (ID), qui sont moyennés sur un ensemble de modèles obtenus à l'aide des fonctions objectives mentionnées ci-dessus. Les résultats conduisent à une performance supérieure lorsque le RKLD est utilisé comme fonction de perte pour l'estimation des modèles spectraux avec le classement ISD juste derrière. La focalisation de ces divergences sur les pics spectraux est argumentée et pointée comme le facteur le plus important de ce comportement. Plus précisément, en utilisant les scores PESQ obtenus avec CEASA, on constate que la perte de RKLD améliore les performances de 1,0%, 4,0% et 19,3% par rapport à l'analyse en boucle ouverte, aux modèles KLD et LSD, respectivement, tandis que les améliorations correspondantes pour la perte ISD sont de 0,1%, 3,0% et 18,2%, et les modèles RKLD excellent les modèles ISD de 1,0% en moyenne. Même si les mesures spectrales seules ne sont pas en mesure de distinguer sans équivoque le meilleur des deux, il est démontré que le CEASA a suffisamment de sensibilité pour distinguer leurs performances. En résumé, la machine d'apprentissage S3LM s'adapte aux modèles de l'enveloppe spectrale à court terme de la parole et, pour l'évaluation de ses performances sous plusieurs fonctions de perte différentiables, l'outil d'évaluation CEASA a été développé. En outre, le CEASA peut être utilisé pour d'autres évaluations liées à l'analyse et à la synthèse de la parole.Translated Description (Spanish)
Los modelos autorregresivos para la envolvente de las densidades espectrales de potencia del habla (PSD) son refinados por la máquina de aprendizaje espectral auto-supervisada (S3LM) provista de funciones objetivas espectrales diferenciables, incluyendo la divergencia Itakura-Saito (ISD), la divergencia Kullback-Leibler (KLD), la KLD inversa (RKLD) y la distorsión espectral logarítmica (LSD), que muestran resultados más significativos. Sin embargo, para evaluar los modelos de manera más perceptiva, se propone un método basado en perturbaciones en torno a configuraciones perfectas de análisis-síntesis de reconstrucción. En el método de análisis de excitación cruzada-evaluación de síntesis (CEASA), las señales residuales generadas por los filtros de análisis de los modelos espectrales se inyectan como excitación en los filtros de síntesis derivados del mismo y otros modelos para ser evaluadas mediante la evaluación perceptual de la calidad del habla (PESQ) y la divergencia de Itakura (ID), que se promedian sobre un conjunto de modelos obtenidos utilizando las funciones objetivas mencionadas anteriormente. Los resultados conducen a un rendimiento superior cuando se utiliza el RKLD como función de pérdida para la estimación de los modelos espectrales con la clasificación ISD muy por detrás. El foco de estas divergencias en los picos espectrales se argumenta y señala como el factor más importante para este comportamiento. Específicamente, utilizando los puntajes PESQ obtenidos con CEASA, se encuentra que la pérdida de RKLD mejora el rendimiento en 1.0%, 4.0% y 19.3% con respecto al análisis de bucle abierto, los modelos KLD y LSD, respectivamente, mientras que las mejoras correspondientes para la pérdida de ISD son 0.1%, 3.0% y 18.2%, y los modelos RKLD superan los modelos ISD en 1.0% en promedio. A pesar de que las medidas espectrales por sí solas no son capaces de distinguir inequívocamente el mejor de los dos, CEASA ha demostrado tener suficiente sensibilidad para distinguir sus actuaciones. En resumen, la máquina de aprendizaje S3LM se ajusta a modelos para la envolvente espectral a corto plazo del habla y, para la evaluación de su desempeño bajo varias funciones de pérdida diferenciables, se ha desarrollado la herramienta de evaluación CEASA. Además, CEASA se puede utilizar para otras evaluaciones relacionadas con el análisis y la síntesis del habla.Files
09709279.pdf.pdf
Files
(245 Bytes)
Name | Size | Download all |
---|---|---|
md5:3f3ea2ec292d0bc55d30ca2740297a2a
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- مقاييس مختلفة للنمذجة الطيفية للكلام
- Translated title (French)
- Mesures différenciables pour la modélisation spectrale de la parole
- Translated title (Spanish)
- Medidas diferenciables para el modelado espectral del habla
Identifiers
- Other
- https://openalex.org/W4211015359
- DOI
- 10.1109/access.2022.3150728
References
- https://openalex.org/W1501095260
- https://openalex.org/W1552314771
- https://openalex.org/W1663973292
- https://openalex.org/W1728888090
- https://openalex.org/W2020024436
- https://openalex.org/W2022554507
- https://openalex.org/W2048916503
- https://openalex.org/W2096765209
- https://openalex.org/W2108429076
- https://openalex.org/W2114352222
- https://openalex.org/W2137089646
- https://openalex.org/W2209071687
- https://openalex.org/W2761952131
- https://openalex.org/W2771756038
- https://openalex.org/W2783657448
- https://openalex.org/W2805225436
- https://openalex.org/W2959133507
- https://openalex.org/W3013185341
- https://openalex.org/W3016011332
- https://openalex.org/W3032514799
- https://openalex.org/W3094594436
- https://openalex.org/W3097412542
- https://openalex.org/W3109302118
- https://openalex.org/W3165891254
- https://openalex.org/W3196593883
- https://openalex.org/W3197590976