Published June 10, 2019 | Version v1
Publication Open

Replay attack detection with auditory filter-based relative phase features

  • 1. Nagaoka University
  • 2. Nagaoka University of Technology
  • 3. Tianjin University
  • 4. Rajamangala University of Technology Isan
  • 5. Chubu University

Description

There are many studies on detecting human speech from artificially generated speech and automatic speaker verification (ASV) that aim to detect and identify whether the given speech belongs to a given speaker. Recent studies demonstrate the success of the relative phase (RP) feature in speaker recognition/verification and the detection of synthesized speech and converted speech. However, there are few studies that focus on the RP feature for replay attack detection. In this paper, we improve the discriminating ability of the RP feature by proposing two new auditory filter-based RP features for replay attack detection. The key idea is to integrate the advantage of RP-based features in signal representation with the advantage of two auditory filter-based RP features. For the first proposed feature, we apply a Mel-filter bank to convert the signal representation of conventional RP information from a linear scale to a Mel scale, where the modified representation is called the Mel-scale RP feature. For the other proposed feature, a gammatone filter bank is applied to scale the RP information, where the scaled RP feature is called the gammatone-scale RP feature. These two proposed phase-based features are implemented to achieve better performance than a conventional RP feature because of the scale resolution and. In addition to the use of individual Mel/gammatone-scale RP features, a combination of the scores of these proposed RP features and a standard magnitude-based feature, that is, the constant Q transform cepstral coefficient (CQCC), is also applied to further improve the reliable detection decision. The effectiveness of the proposed Mel-scale RP feature, gammatone-scale RP feature, and their combination are evaluated using the ASVspoof 2017 dataset. On the evaluation dataset, our proposed methods demonstrate significant improvement over the existing feature and baseline CQCC feature. The combination of the CQCC and gammatone-scale RP provides the best performance compared with an individual baseline feature and other combination methods.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

هناك العديد من الدراسات حول اكتشاف الكلام البشري من الكلام المتولد بشكل مصطنع والتحقق التلقائي من السماعة (ASV) التي تهدف إلى اكتشاف وتحديد ما إذا كان الكلام المعطى ينتمي إلى متحدث معين. تُظهر الدراسات الحديثة نجاح ميزة المرحلة النسبية (RP) في التعرف على المتحدث/التحقق منه واكتشاف الكلام المركب والكلام المحول. ومع ذلك، هناك عدد قليل من الدراسات التي تركز على ميزة RP لاكتشاف هجوم إعادة التشغيل. في هذه الورقة، نقوم بتحسين القدرة التمييزية لميزة RP من خلال اقتراح ميزتين جديدتين من ميزات RP المستندة إلى المرشح السمعي لاكتشاف هجوم إعادة التشغيل. الفكرة الرئيسية هي دمج ميزة الميزات المستندة إلى RP في تمثيل الإشارة مع ميزة ميزتين من ميزات RP المستندة إلى المرشح السمعي. بالنسبة للميزة الأولى المقترحة، نطبق بنك مرشح MEL لتحويل تمثيل الإشارة لمعلومات RP التقليدية من مقياس خطي إلى مقياس MEL، حيث يسمى التمثيل المعدل بميزة RP على مقياس MEL. بالنسبة للميزة المقترحة الأخرى، يتم تطبيق بنك مرشح gammatone لتوسيع نطاق معلومات RP، حيث تسمى ميزة RP المقاسة بميزة RP على مقياس gammatone. يتم تنفيذ هاتين الميزتين المقترحتين على أساس المرحلة لتحقيق أداء أفضل من ميزة RP التقليدية بسبب دقة المقياس و. بالإضافة إلى استخدام ميزات RP الفردية على مقياس MEL/gammatone، يتم أيضًا تطبيق مزيج من درجات ميزات RP المقترحة هذه وميزة قياسية قائمة على الحجم، أي معامل تحويل Q الثابت (CQCC)، لزيادة تحسين قرار الكشف الموثوق. يتم تقييم فعالية ميزة RP المقترحة على مقياس Mel، وميزة RP المقترحة على مقياس gammatone، ومزيجها باستخدام مجموعة بيانات ASVspoof 2017. في مجموعة بيانات التقييم، تُظهر طرقنا المقترحة تحسنًا كبيرًا مقارنة بالميزة الحالية وميزة CQCC الأساسية. يوفر الجمع بين CQCC و RP على مقياس جاماتون أفضل أداء مقارنة بميزة خط الأساس الفردية وطرق الجمع الأخرى.

Translated Description (French)

Il existe de nombreuses études sur la détection de la parole humaine à partir de la parole générée artificiellement et de la vérification automatique du locuteur (ASV) qui visent à détecter et à identifier si la parole donnée appartient à un locuteur donné. Des études récentes démontrent le succès de la fonction de phase relative (RP) dans la reconnaissance/vérification du locuteur et la détection de la parole synthétisée et de la parole convertie. Cependant, peu d'études se concentrent sur la fonctionnalité RP pour la détection des attaques de relecture. Dans cet article, nous améliorons la capacité discriminante de la fonctionnalité RP en proposant deux nouvelles fonctionnalités RP basées sur un filtre auditif pour la détection d'attaques de relecture. L'idée clé est d'intégrer l'avantage des fonctionnalités basées sur RP dans la représentation du signal avec l'avantage de deux fonctionnalités RP basées sur un filtre auditif. Pour la première fonctionnalité proposée, nous appliquons une banque de filtres Mel pour convertir la représentation de signal des informations RP conventionnelles d'une échelle linéaire à une échelle Mel, où la représentation modifiée est appelée la fonctionnalité RP à l'échelle Mel. Pour l'autre fonctionnalité proposée, une banque de filtres de gammatone est appliquée pour mettre à l'échelle les informations RP, où la fonctionnalité RP mise à l'échelle est appelée la fonctionnalité RP à l'échelle de la gammatone. Ces deux fonctionnalités basées sur les phases proposées sont mises en œuvre pour obtenir de meilleures performances qu'une fonctionnalité RP conventionnelle en raison de la résolution d'échelle et. En plus de l'utilisation de caractéristiques individuelles de RP à l'échelle Mel/gammatone, une combinaison des scores de ces caractéristiques de RP proposées et d'une caractéristique standard basée sur la magnitude, c'est-à-dire le coefficient cepstral de transformée Q constant (CQCC), est également appliquée pour améliorer davantage la décision de détection fiable. L'efficacité de la fonction RP proposée à l'échelle Mel, de la fonction RP à l'échelle gammatone et de leur combinaison est évaluée à l'aide de l'ensemble de données ASVspoof 2017. Sur l'ensemble de données d'évaluation, nos méthodes proposées démontrent une amélioration significative par rapport à la fonctionnalité existante et à la fonctionnalité CQCC de base. La combinaison du CQCC et du RP à l'échelle de la gammatone offre les meilleures performances par rapport à une caractéristique de base individuelle et à d'autres méthodes de combinaison.

Translated Description (Spanish)

Hay muchos estudios sobre la detección del habla humana a partir del habla generada artificialmente y la verificación automática del hablante (ASV) que tienen como objetivo detectar e identificar si el habla dada pertenece a un hablante determinado. Estudios recientes demuestran el éxito de la función de fase relativa (RP) en el reconocimiento/verificación de hablantes y la detección del habla sintetizada y el habla convertida. Sin embargo, hay pocos estudios que se centren en la función RP para la detección de ataques de repetición. En este documento, mejoramos la capacidad de discriminación de la función RP al proponer dos nuevas funciones de RP basadas en filtros auditivos para la detección de ataques de repetición. La idea clave es integrar la ventaja de las características basadas en RP en la representación de señales con la ventaja de dos características de RP basadas en filtros auditivos. Para la primera característica propuesta, aplicamos un banco de filtros Mel para convertir la representación de señal de la información de RP convencional de una escala lineal a una escala Mel, donde la representación modificada se denomina característica RP de escala Mel. Para la otra función propuesta, se aplica un banco de filtros de gammatona para escalar la información de RP, donde la función de RP escalada se denomina función de RP de escala de gammatona. Estas dos características basadas en fases propuestas se implementan para lograr un mejor rendimiento que una característica de RP convencional debido a la resolución de escala y. Además del uso de características de RP de escala Mel/gammatona individuales, también se aplica una combinación de las puntuaciones de estas características de RP propuestas y una característica basada en la magnitud estándar, es decir, el coeficiente cepstral de transformación Q constante (CQCC), para mejorar aún más la decisión de detección confiable. La efectividad de la función RP de escala Mel propuesta, la función RP de escala de gammatona y su combinación se evalúan utilizando el conjunto de datos ASVspoof 2017. En el conjunto de datos de evaluación, nuestros métodos propuestos demuestran una mejora significativa con respecto a la característica existente y la característica de CQCC de referencia. La combinación de CQCC y RP a escala de gammatona proporciona el mejor rendimiento en comparación con una característica de referencia individual y otros métodos combinados.

Files

s13636-019-0151-2.pdf

Files (1.7 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:ceade893235ed1f7c2673bbb170fb700
1.7 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
إعادة تشغيل اكتشاف الهجوم باستخدام ميزات المرحلة النسبية القائمة على المرشح السمعي
Translated title (French)
Rejouer la détection d'attaque avec des fonctionnalités de phase relative basées sur un filtre auditif
Translated title (Spanish)
Reproducir la detección de ataques con características de fase relativa basadas en filtros auditivos

Identifiers

Other
https://openalex.org/W2952384848
DOI
10.1186/s13636-019-0151-2

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W2002311796
  • https://openalex.org/W2014485509
  • https://openalex.org/W2123299109
  • https://openalex.org/W2140959843
  • https://openalex.org/W2145212718
  • https://openalex.org/W2165880886
  • https://openalex.org/W2297648422
  • https://openalex.org/W2606361731
  • https://openalex.org/W2745744274
  • https://openalex.org/W2748644398
  • https://openalex.org/W2750335806
  • https://openalex.org/W2789949544