Published January 1, 2021 | Version v1
Publication Open

Voice Spoofing Countermeasure for Logical Access Attacks Detection

  • 1. University of Engineering and Technology Taxila
  • 2. Jazan University

Description

Voice-driven devices (VDDs) like Google Home and Amazon Alexa, which are well-known connected devices in consumer IoT, have applications in various domains i.e., home appliances automation, next-generation vehicles, voice banking, and so on. However, these VDDs that are based on automatic speaker verification systems (ASVs) are vulnerable to voice based logical access (LA) attacks like Text-to-Speech (TTS) synthesis and converted voice signals. Intruders can exploit these attacks to bypass the security of such systems and gain access of victim's bank account or home control. Thus, there exists a need to develop an effective voice spoofing countermeasure that can reliably be used to protect these VDDs against such malicious attacks. This work presents a novel audio features descriptor named as extended local ternary pattern (ELTP) to capture the vocal tract dynamically induced attributes of bonafide speech and algorithmic artifacts in synthetic and converted speeches. We fused our novel ELTP features with the linear frequency cepstral coefficients (LFCC) to further strengthen the capability of our features for capturing the traits of bonafide and spoofed signals. We employ the proposed ELTP-LFCC features to train the deep bidirectional Long Short-Term Memory (DBiLSTM) network for classification of the bonafide and spoof signal (i.e., TTS synthesis, converted speech). Performance of our spoofing countermeasure is measured on the large-scale and diverse ASVspoof 2019 logical access dataset. Experimental results demonstrate that the proposed audio spoofing countermeasure can reliably be used to detect the LA spoofing attacks.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الأجهزة التي تعمل بالصوت (VDDs) مثل Google Home وAmazon Alexa، وهي أجهزة متصلة معروفة في إنترنت الأشياء للمستهلك، لها تطبيقات في مجالات مختلفة مثل أتمتة الأجهزة المنزلية، ومركبات الجيل التالي، والخدمات المصرفية الصوتية، وما إلى ذلك. ومع ذلك، فإن أجهزة VDDs هذه التي تعتمد على أنظمة التحقق التلقائي من مكبرات الصوت (ASVs) عرضة لهجمات الوصول المنطقي القائمة على الصوت (LA) مثل توليف النص إلى كلام (TTS) والإشارات الصوتية المحولة. يمكن للمتسللين استغلال هذه الهجمات لتجاوز أمن هذه الأنظمة والوصول إلى الحساب المصرفي للضحية أو التحكم في المنزل. وبالتالي، هناك حاجة إلى تطوير تدبير مضاد فعال لانتحال الصوت يمكن استخدامه بشكل موثوق لحماية أجهزة VDD هذه من مثل هذه الهجمات الخبيثة. يقدم هذا العمل وصفًا جديدًا للميزات الصوتية يسمى النمط الثلاثي المحلي الممتد (ELTP) لالتقاط سمات المجرى الصوتي المستحثة ديناميكيًا للكلام المخلص والتحف الحسابية في الخطب الاصطناعية والمحوّلة. لقد قمنا بدمج ميزات ELTP الجديدة الخاصة بنا مع معاملات التردد الرأسي الخطي (LFCC) لزيادة تعزيز قدرة ميزاتنا على التقاط سمات الإشارات الخادعة والمخادعة. نحن نستخدم ميزات ELTP - LFCC المقترحة لتدريب شبكة الذاكرة الطويلة الأجل ثنائية الاتجاه العميقة (DBiLSTM) لتصنيف إشارة النوايا الحسنة والمحاكاة الساخرة (أي توليف TTS والكلام المحول). يتم قياس أداء التدبير المضاد للتزييف الخاص بنا على مجموعة بيانات الوصول المنطقي ASVspoof 2019 واسعة النطاق ومتنوعة. تُظهر النتائج التجريبية أنه يمكن استخدام التدبير المضاد لتزييف الصوت المقترح بشكل موثوق للكشف عن هجمات تزييف الصوت في لوس أنجلوس.

Translated Description (French)

Les appareils à commande vocale (VDD) comme Google Home et Amazon Alexa, qui sont des appareils connectés bien connus dans l'IoT grand public, ont des applications dans divers domaines, à savoir l'automatisation des appareils électroménagers, les véhicules de nouvelle génération, les services bancaires vocaux, etc. Cependant, ces VDD qui sont basés sur des systèmes de vérification automatique des locuteurs (ASV) sont vulnérables aux attaques d'accès logique basé sur la voix (LA) comme la synthèse de texte en parole (TTS) et les signaux vocaux convertis. Les intrus peuvent exploiter ces attaques pour contourner la sécurité de ces systèmes et accéder au compte bancaire ou au contrôle à domicile de la victime. Ainsi, il existe un besoin de développer une contre-mesure efficace d'usurpation de la voix qui peut être utilisée de manière fiable pour protéger ces VDD contre de telles attaques malveillantes. Ce travail présente un nouveau descripteur de caractéristiques audio appelé modèle ternaire local étendu (ELTP) pour capturer les attributs induits dynamiquement du tractus vocal de la parole authentique et des artefacts algorithmiques dans les discours synthétiques et convertis. Nous avons fusionné nos nouvelles fonctionnalités ELTP avec les coefficients cepstraux de fréquence linéaire (LFCC) pour renforcer davantage la capacité de nos fonctionnalités à capturer les traits des signaux de bonne foi et usurpés. Nous utilisons les fonctionnalités ELTP-LFCC proposées pour former le réseau de mémoire à long terme (DBiLSTM) bidirectionnel profond pour la classification du signal authentique et factice (c'est-à-dire la synthèse TTS, la parole convertie). Les performances de notre contre-mesure d'usurpation d'identité sont mesurées sur l'ensemble de données d'accès logique ASVspoof 2019 à grande échelle et diversifié. Les résultats expérimentaux démontrent que la contre-mesure d'usurpation audio proposée peut être utilisée de manière fiable pour détecter les attaques d'usurpation LA.

Translated Description (Spanish)

Los dispositivos impulsados por voz (VDD) como Google Home y Amazon Alexa, que son dispositivos conectados bien conocidos en IoT de consumo, tienen aplicaciones en varios dominios, es decir, automatización de electrodomésticos, vehículos de próxima generación, banca de voz, etc. Sin embargo, estos VDD que se basan en sistemas de verificación automática de altavoces (ASV) son vulnerables a ataques de acceso lógico (LA) basados en voz, como la síntesis de texto a voz (TTS) y las señales de voz convertidas. Los intrusos pueden explotar estos ataques para eludir la seguridad de dichos sistemas y obtener acceso a la cuenta bancaria o al control doméstico de la víctima. Por lo tanto, existe la necesidad de desarrollar una contramedida efectiva de suplantación de voz que pueda usarse de manera confiable para proteger estos VDD contra tales ataques maliciosos. Este trabajo presenta un novedoso descriptor de características de audio denominado patrón ternario local extendido (ELTP) para capturar los atributos inducidos dinámicamente del tracto vocal del habla de buena fe y los artefactos algorítmicos en discursos sintéticos y convertidos. Fusionamos nuestras nuevas características ELTP con los coeficientes cepstrales de frecuencia lineal (LFCC) para fortalecer aún más la capacidad de nuestras características para capturar los rasgos de las señales de buena fe y falsificadas. Empleamos las características propuestas de ELTP-LFCC para entrenar la red profunda bidireccional de memoria a corto plazo (DBiLSTM) para la clasificación de la señal de buena fe y falsa (es decir, síntesis de TTS, voz convertida). El rendimiento de nuestra contramedida de suplantación se mide en el conjunto de datos de acceso lógico ASVspoof 2019 a gran escala y diverso. Los resultados experimentales demuestran que la contramedida de suplantación de audio propuesta se puede usar de manera confiable para detectar los ataques de suplantación de LA.

Files

09638512.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:9bbb3e7721056c321286444e31cf1df9
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
إجراء مضاد للتزييف الصوتي للكشف عن هجمات الوصول المنطقي
Translated title (French)
Contre-mesure d'usurpation de la voix pour la détection des attaques d'accès logique
Translated title (Spanish)
Contramedida de suplantación de voz para la detección de ataques de acceso lógico

Identifiers

Other
https://openalex.org/W4205858138
DOI
10.1109/access.2021.3133134

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W2034329102
  • https://openalex.org/W2039051707
  • https://openalex.org/W2072473772
  • https://openalex.org/W2131081720
  • https://openalex.org/W2131774270
  • https://openalex.org/W2138878452
  • https://openalex.org/W2143076824
  • https://openalex.org/W2168254078
  • https://openalex.org/W2270140468
  • https://openalex.org/W2293407848
  • https://openalex.org/W2295518531
  • https://openalex.org/W2295634712
  • https://openalex.org/W2303197844
  • https://openalex.org/W2398758564
  • https://openalex.org/W2401839215
  • https://openalex.org/W2403139431
  • https://openalex.org/W2405506115
  • https://openalex.org/W2406845569
  • https://openalex.org/W2407170210
  • https://openalex.org/W2464759814
  • https://openalex.org/W2483721152
  • https://openalex.org/W2533075636
  • https://openalex.org/W2811468573
  • https://openalex.org/W2899675781
  • https://openalex.org/W2916218757
  • https://openalex.org/W2936588983
  • https://openalex.org/W2938034462
  • https://openalex.org/W2955054437
  • https://openalex.org/W2963035245
  • https://openalex.org/W2972526452
  • https://openalex.org/W2972703466
  • https://openalex.org/W2972786657
  • https://openalex.org/W2973181078
  • https://openalex.org/W3033511663