Published March 2, 2021 | Version v1
Publication Open

Development of a regional voice dataset and speaker classification based on machine learning

  • 1. University of Sindh
  • 2. Karakoram International University

Description

Abstract At present, voice biometrics are commonly used for identification and authentication of users through their voice. Voice based services such as mobile banking, access to personal devices, and logging into social networks are the common examples of authenticating users through voice biometrics. In Pakistan, voice-based services are very common in banking and mobile/cellular sector, however, these services do not use voice features to recognize customers. Therefore, the chance to use these services with false identity is always high. It is essential to design a voice-based recognition system to minimize the risk of false identity. In this paper, we developed regional voice datasets for voice biometrics, by collecting voice data in different local accents of Pakistan. Although, there is a global need for voice biometrics especially when voice-based services are common, however, this paper uses Pakistan as a use case to show how to build regional voice dataset for voice biometrics. To build voice dataset, voice samples were recorded from 180 male and female speakers with two languages English and Urdu in form of five regional accents. Mel Frequency Cepstral Coefficient (MFCC) features were extracted from the collected voice samples to train Support Vector Machine (SVM), Artificial Neural Network (ANN), Random Forest (RF) and K-nearest neighbor (KNN) classifiers. The results indicate that ANN outperformed SVM, RF and KNN by achieving 88.53% and 86.58% recognition accuracy on both datasets respectively.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في الوقت الحاضر، تستخدم القياسات الحيوية الصوتية بشكل شائع لتحديد هوية المستخدمين والمصادقة عليهم من خلال صوتهم. الخدمات القائمة على الصوت مثل الخدمات المصرفية عبر الهاتف المحمول، والوصول إلى الأجهزة الشخصية، وتسجيل الدخول إلى الشبكات الاجتماعية هي الأمثلة الشائعة لمصادقة المستخدمين من خلال القياسات الحيوية الصوتية. في باكستان، تعد الخدمات الصوتية شائعة جدًا في القطاع المصرفي والهاتف المحمول/الخلوي، ومع ذلك، لا تستخدم هذه الخدمات ميزات الصوت للتعرف على العملاء. لذلك، فإن فرصة استخدام هذه الخدمات بهوية مزورة عالية دائمًا. من الضروري تصميم نظام التعرف الصوتي لتقليل مخاطر الهوية المزيفة. في هذه الورقة، قمنا بتطوير مجموعات بيانات صوتية إقليمية للقياسات الحيوية الصوتية، من خلال جمع البيانات الصوتية بلهجات محلية مختلفة في باكستان. على الرغم من وجود حاجة عالمية إلى القياسات الحيوية الصوتية خاصة عندما تكون الخدمات الصوتية شائعة، إلا أن هذه الورقة تستخدم باكستان كحالة استخدام لإظهار كيفية بناء مجموعة بيانات صوتية إقليمية للقياسات الحيوية الصوتية. لبناء مجموعة بيانات صوتية، تم تسجيل عينات صوتية من 180 متحدثًا ومتحدثة بلغتين الإنجليزية والأوردو في شكل خمس لهجات إقليمية. تم استخراج ميزات المعامل الكبدي لتردد MEL (MFCC) من عينات الصوت التي تم جمعها لتدريب مصنفات آلة ناقلات الدعم (SVM) والشبكة العصبية الاصطناعية (ANN) والغابة العشوائية (RF) و K - nearest neighbor (KNN). تشير النتائج إلى أن ANN تفوقت على SVM و RF و KNN من خلال تحقيق 88.53 ٪ و 86.58 ٪ من دقة التعرف على كلتا مجموعتي البيانات على التوالي.

Translated Description (French)

Résumé À l'heure actuelle, la biométrie vocale est couramment utilisée pour l'identification et l'authentification des utilisateurs par leur voix. Les services basés sur la voix tels que les services bancaires mobiles, l'accès aux appareils personnels et la connexion aux réseaux sociaux sont les exemples courants d'authentification des utilisateurs via la biométrie vocale. Au Pakistan, les services vocaux sont très courants dans le secteur bancaire et mobile/cellulaire, cependant, ces services n'utilisent pas de fonctionnalités vocales pour reconnaître les clients. Par conséquent, la possibilité d'utiliser ces services avec une fausse identité est toujours élevée. Il est essentiel de concevoir un système de reconnaissance vocale pour minimiser le risque de fausse identité. Dans cet article, nous avons développé des ensembles de données vocales régionaux pour la biométrie vocale, en collectant des données vocales dans différents accents locaux du Pakistan. Bien qu'il existe un besoin mondial de biométrie vocale, en particulier lorsque les services vocaux sont courants, cet article utilise le Pakistan comme cas d'utilisation pour montrer comment créer un ensemble de données vocales régionales pour la biométrie vocale. Pour construire un ensemble de données vocales, des échantillons de voix ont été enregistrés à partir de 180 locuteurs masculins et féminins avec deux langues, l'anglais et l'ourdou, sous la forme de cinq accents régionaux. Les caractéristiques Mel Frequency Cepstral Coefficient (MFCC) ont été extraites des échantillons vocaux collectés pour former les classificateurs Support Vector Machine (SVM), Artificial Neural Network (ANN), Random Forest (RF) et K-neirest neighbor (KNN). Les résultats indiquent que ANN a surperformé SVM, RF et KNN en atteignant respectivement 88,53 % et 86,58 % de précision de reconnaissance sur les deux ensembles de données.

Translated Description (Spanish)

Resumen En la actualidad, la biometría de voz se utiliza comúnmente para la identificación y autenticación de los usuarios a través de su voz. Los servicios basados en voz, como la banca móvil, el acceso a dispositivos personales y el inicio de sesión en redes sociales, son los ejemplos comunes de autenticación de usuarios a través de la biometría de voz. En Pakistán, los servicios basados en voz son muy comunes en el sector bancario y móvil/celular, sin embargo, estos servicios no utilizan funciones de voz para reconocer a los clientes. Por lo tanto, la posibilidad de utilizar estos servicios con identidad falsa siempre es alta. Es esencial diseñar un sistema de reconocimiento basado en voz para minimizar el riesgo de identidad falsa. En este documento, desarrollamos conjuntos de datos de voz regionales para biometría de voz, mediante la recopilación de datos de voz en diferentes acentos locales de Pakistán. Aunque existe una necesidad global de biometría de voz, especialmente cuando los servicios basados en voz son comunes, sin embargo, este documento utiliza a Pakistán como un caso de uso para mostrar cómo construir un conjunto de datos de voz regional para la biometría de voz. Para construir el conjunto de datos de voz, se registraron muestras de voz de 180 hablantes masculinos y femeninos con dos idiomas, inglés y urdu, en forma de cinco acentos regionales. Las características del Coeficiente Cepstral de Frecuencia Mel (MFCC) se extrajeron de las muestras de voz recolectadas para entrenar clasificadores de Máquina de Vectores de Soporte (SVM), Red Neuronal Artificial (ANN), Bosque Aleatorio (RF) y K-vecino más cercano (KNN). Los resultados indican que ANN superó a SVM, RF y KNN al lograr una precisión de reconocimiento del 88.53% y 86.58% en ambos conjuntos de datos, respectivamente.

Files

s40537-021-00435-9.pdf

Files (1.4 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:94a4ffe58983ddeedd449136012c7601
1.4 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تطوير مجموعة بيانات صوتية إقليمية وتصنيف المتحدثين بناءً على التعلم الآلي
Translated title (French)
Développement d'un ensemble de données vocales régionales et d'une classification des locuteurs basée sur l'apprentissage automatique
Translated title (Spanish)
Desarrollo de un conjunto de datos de voz regional y clasificación de oradores basados en el aprendizaje automático

Identifiers

Other
https://openalex.org/W3140920347
DOI
10.1186/s40537-021-00435-9

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1534445552
  • https://openalex.org/W1607274768
  • https://openalex.org/W1620589732
  • https://openalex.org/W1936725236
  • https://openalex.org/W1975052711
  • https://openalex.org/W1976461132
  • https://openalex.org/W2023326333
  • https://openalex.org/W2053762077
  • https://openalex.org/W2070176749
  • https://openalex.org/W2126854862
  • https://openalex.org/W2136132422
  • https://openalex.org/W2140959843
  • https://openalex.org/W2151571212
  • https://openalex.org/W2154691736
  • https://openalex.org/W2293349767
  • https://openalex.org/W2395624426
  • https://openalex.org/W2398971481
  • https://openalex.org/W2399210150
  • https://openalex.org/W2491474862
  • https://openalex.org/W2516764878
  • https://openalex.org/W2608696185
  • https://openalex.org/W2736218237
  • https://openalex.org/W2748501745
  • https://openalex.org/W2749720872
  • https://openalex.org/W2752019808
  • https://openalex.org/W2757362440
  • https://openalex.org/W2785710782
  • https://openalex.org/W2807741195
  • https://openalex.org/W2808631503
  • https://openalex.org/W2854103257
  • https://openalex.org/W2889385246
  • https://openalex.org/W2899853413
  • https://openalex.org/W2911964244
  • https://openalex.org/W2943439138
  • https://openalex.org/W3036420208
  • https://openalex.org/W4242514245
  • https://openalex.org/W6164084