Published July 1, 2020 | Version v1
Publication Open

Deep and CNN fusion method for binaural sound source localisation

  • 1. Hong Kong University of Science and Technology
  • 2. University of Hong Kong
  • 3. Peking University

Description

In binaural sound source localisation, front–back confusion is often the challenging problem when localising sources in the noisy or reverberant environments. Hence, a novel algorithm fusing deep and convolutional neural network (CNN) is proposed to address this issue. First, joint features, which consist of interaural level differences (ILDs) and cross-correlation function (CCF) within a lag range, are extracted from binaural signals. Second, with the extracted CCF–ILD features, CNN is used for the front–back classification task, while deep neural network is used for azimuth classification task. The front–back features extracted by the CNN can be leveraged as additional information for the sound source localisation task. Also, an angle-loss function is designed to avoid the overfitting problem and to improve the generalisation ability of this method in adverse acoustic conditions. Finally, two branches are concatenated and then followed by an output layer, which generates the posterior probability of azimuth angles, and the azimuth corresponding to the maximum posterior probability is chosen as the direction of sound source. Experimental results demonstrate the effectiveness of the authors' method for front–back decision and azimuth estimation in noisy and reverberant environments.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في توطين مصدر الصوت ثنائي الأذنين، غالبًا ما يكون الارتباك الأمامي هو المشكلة الصعبة عند توطين المصادر في البيئات الصاخبة أو الصاخبة. وبالتالي، يتم اقتراح خوارزمية جديدة تدمج الشبكة العصبية العميقة والالتفافية (CNN) لمعالجة هذه المشكلة. أولاً، يتم استخراج سمات المفصل، التي تتكون من اختلافات المستوى بين الأذنين (ILDs) ووظيفة الارتباط المتبادل (CCF) ضمن نطاق متخلف، من الإشارات ثنائية الأذنين. ثانيًا، مع ميزات CCF - ILD المستخرجة، يتم استخدام CNN لمهمة التصنيف الأمامي، بينما يتم استخدام الشبكة العصبية العميقة لمهمة تصنيف السمت. يمكن الاستفادة من الميزات الأمامية التي تستخرجها شبكة CNN كمعلومات إضافية لمهمة توطين مصدر الصوت. أيضًا، تم تصميم وظيفة فقدان الزاوية لتجنب مشكلة التجهيز الزائد ولتحسين قدرة التعميم لهذه الطريقة في الظروف الصوتية المعاكسة. أخيرًا، يتم تسلسل فرعين ثم تتبعهما طبقة خرج، والتي تولد الاحتمال الخلفي لزوايا السمت، ويتم اختيار السمت المقابل لأقصى احتمال خلفي كاتجاه مصدر الصوت. تُظهر النتائج التجريبية فعالية طريقة المؤلفين في اتخاذ القرار الأمامي وتقدير السمت في البيئات الصاخبة والصدى.

Translated Description (French)

Dans la localisation de sources sonores binaurales, la confusion avant-arrière est souvent le problème difficile lors de la localisation de sources dans les environnements bruyants ou réverbérants. Par conséquent, un nouvel algorithme fusionnant un réseau neuronal profond et convolutionnel (CNN) est proposé pour résoudre ce problème. Tout d'abord, les caractéristiques articulaires, qui consistent en des différences de niveau interauriculaires (ILD) et une fonction de corrélation croisée (CCF) dans une plage de décalage, sont extraites des signaux binauraux. Deuxièmement, avec les fonctionnalités CCF-ILD extraites, CNN est utilisé pour la tâche de classification frontale, tandis que le réseau neuronal profond est utilisé pour la tâche de classification azimutale. Les caractéristiques avant-arrière extraites par le CNN peuvent être exploitées comme informations supplémentaires pour la tâche de localisation de la source sonore. En outre, une fonction de perte d'angle est conçue pour éviter le problème de surajustement et pour améliorer la capacité de généralisation de ce procédé dans des conditions acoustiques défavorables. Enfin, deux branches sont concaténées puis suivies d'une couche de sortie, qui génère la probabilité postérieure des angles d'azimut, et l'azimut correspondant à la probabilité postérieure maximale est choisi comme direction de la source sonore. Les résultats expérimentaux démontrent l'efficacité de la méthode des auteurs pour la décision frontale et l'estimation de l'azimut dans des environnements bruyants et réverbérants.

Translated Description (Spanish)

En la localización de fuentes de sonido binaural, la confusión frontal-posterior suele ser el problema más difícil cuando se localizan fuentes en entornos ruidosos o reverberantes. Por lo tanto, se propone un nuevo algoritmo que fusiona la red neuronal profunda y convolucional (CNN) para abordar este problema. En primer lugar, las características de la articulación, que consisten en diferencias de nivel interaural (ILD) y función de correlación cruzada (CCF) dentro de un rango de retardo, se extraen de las señales binaurales. En segundo lugar, con las características extraídas de CCF-ILD, CNN se utiliza para la tarea de clasificación frontal-posterior, mientras que la red neuronal profunda se utiliza para la tarea de clasificación acimutal. Las funciones front-back extraídas por la CNN se pueden aprovechar como información adicional para la tarea de localización de la fuente de sonido. Además, se ha diseñado una función de pérdida de ángulo para evitar el problema de sobreajuste y mejorar la capacidad de generalización de este método en condiciones acústicas adversas. Finalmente, se concatenan dos ramas y luego se sigue una capa de salida, que genera la probabilidad posterior de ángulos de azimut, y se elige el azimut correspondiente a la probabilidad posterior máxima como la dirección de la fuente de sonido. Los resultados experimentales demuestran la efectividad del método de los autores para la decisión frontal y posterior y la estimación del acimut en entornos ruidosos y reverberantes.

Files

joe.2019.1207.pdf

Files (16.1 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:eb3994ce901c0354561881188c04cb47
16.1 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
طريقة الدمج العميق و سي إن إن لتوطين مصدر الصوت بكلتا الأذنين
Translated title (French)
Méthode de fusion Deep et CNN pour la localisation de la source sonore binaurale
Translated title (Spanish)
Método de fusión profunda y CNN para la localización de fuentes de sonido binaurales

Identifiers

Other
https://openalex.org/W3046394092
DOI
10.1049/joe.2019.1207

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1581848821
  • https://openalex.org/W1635512741
  • https://openalex.org/W1964758977
  • https://openalex.org/W1971405469
  • https://openalex.org/W1971920230
  • https://openalex.org/W1974387177
  • https://openalex.org/W2043303163
  • https://openalex.org/W2046317813
  • https://openalex.org/W2122171611
  • https://openalex.org/W2136682440
  • https://openalex.org/W2166682639
  • https://openalex.org/W2241211221
  • https://openalex.org/W2343218625
  • https://openalex.org/W2663904211
  • https://openalex.org/W2765962757
  • https://openalex.org/W4233392025
  • https://openalex.org/W626076810