<b>A comparative study between MFCC and LSF coefficients in automatic recognition of isolated digits pronounced in Portuguese and English</b> - doi: 10.4025/actascitechnol.v35i4.19825
- 1. Universidade de São Paulo
Description
Recognition of isolated spoken digits is the core procedure for a large number of applications which rely solely on speech for data exchange, as in telephone-based services, such as dialing, airline reservation, bank transaction and price quotation. Spoken digit recognition is generally a challenging task since the signals last for a short period of time and often some digits are acoustically very similar to other digits. The objective of this paper is to investigate the use of machine learning algorithms for spoken digit recognition and disclose the free availability of a database with digits pronounced in English and Portuguese to the scientific community. Since machine learning algorithms are fully dependent on predictive attributes to build precise classifiers, we believe that the most important task for successfully recognizing spoken digits is feature extraction. In this work, we show that Line Spectral Frequencies (LSF) provide a set of highly predictive coefficients. We evaluated our classifiers in different settings by altering the sampling rate to simulate low quality channels and varying the number of coefficients.
Translated Descriptions
Translated Description (Arabic)
يعد التعرف على الأرقام المنطوقة المعزولة هو الإجراء الأساسي لعدد كبير من التطبيقات التي تعتمد فقط على الكلام لتبادل البيانات، كما هو الحال في الخدمات المستندة إلى الهاتف، مثل الاتصال الهاتفي وحجز شركات الطيران والمعاملات المصرفية وعرض الأسعار. يعد التعرف على الأرقام المنطوقة عمومًا مهمة صعبة لأن الإشارات تستمر لفترة قصيرة من الزمن وغالبًا ما تكون بعض الأرقام متشابهة جدًا من الناحية الصوتية مع الأرقام الأخرى. الهدف من هذه الورقة هو التحقيق في استخدام خوارزميات التعلم الآلي للتعرف على الأرقام المنطوقة والكشف عن التوافر المجاني لقاعدة بيانات بأرقام تنطق باللغتين الإنجليزية والبرتغالية للمجتمع العلمي. نظرًا لأن خوارزميات التعلم الآلي تعتمد اعتمادًا تامًا على السمات التنبؤية لبناء مصنفات دقيقة، فإننا نعتقد أن أهم مهمة للتعرف بنجاح على الأرقام المنطوقة هي استخراج الميزات. في هذا العمل، نوضح أن الترددات الطيفية الخطية (LSF) توفر مجموعة من المعاملات التنبؤية للغاية. قمنا بتقييم مصنفاتنا في إعدادات مختلفة من خلال تغيير معدل أخذ العينات لمحاكاة القنوات منخفضة الجودة وتغيير عدد المعاملات.Translated Description (French)
La reconnaissance des chiffres parlés isolés est la procédure de base pour un grand nombre d'applications qui reposent uniquement sur la parole pour l'échange de données, comme dans les services téléphoniques, tels que la numérotation, la réservation de ligne aérienne, la transaction bancaire et le devis. La reconnaissance des chiffres parlés est généralement une tâche difficile car les signaux durent peu de temps et souvent certains chiffres sont acoustiquement très similaires à d'autres chiffres. L'objectif de cet article est d'étudier l'utilisation d'algorithmes d'apprentissage automatique pour la reconnaissance vocale des chiffres et de divulguer la disponibilité gratuite d'une base de données avec des chiffres prononcés en anglais et en portugais à la communauté scientifique. Étant donné que les algorithmes d'apprentissage automatique dépendent entièrement des attributs prédictifs pour construire des classificateurs précis, nous pensons que la tâche la plus importante pour reconnaître avec succès les chiffres parlés est l'extraction de caractéristiques. Dans ce travail, nous montrons que les fréquences spectrales de ligne (LSF) fournissent un ensemble de coefficients hautement prédictifs. Nous avons évalué nos classificateurs dans différents contextes en modifiant la fréquence d'échantillonnage pour simuler des canaux de faible qualité et en faisant varier le nombre de coefficients.Translated Description (Spanish)
El reconocimiento de dígitos hablados aislados es el procedimiento central para un gran número de aplicaciones que dependen únicamente del habla para el intercambio de datos, como en los servicios basados en el teléfono, como la marcación, la reserva de aerolíneas, las transacciones bancarias y la cotización de precios. El reconocimiento de dígitos hablados es generalmente una tarea desafiante, ya que las señales duran un corto período de tiempo y, a menudo, algunos dígitos son acústicamente muy similares a otros dígitos. El objetivo de este trabajo es investigar el uso de algoritmos de aprendizaje automático para el reconocimiento de dígitos hablados y divulgar la disponibilidad gratuita de una base de datos con dígitos pronunciados en inglés y portugués a la comunidad científica. Dado que los algoritmos de aprendizaje automático dependen completamente de los atributos predictivos para crear clasificadores precisos, creemos que la tarea más importante para reconocer con éxito los dígitos hablados es la extracción de características. En este trabajo, mostramos que las frecuencias espectrales de línea (LSF) proporcionan un conjunto de coeficientes altamente predictivos. Evaluamos nuestros clasificadores en diferentes entornos alterando la frecuencia de muestreo para simular canales de baja calidad y variando el número de coeficientes.Files
      
        pdf.pdf
        
      
    
    
      
        Files
         (257 Bytes)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:b82aa943c027c1bc7d0db42acae30017 | 257 Bytes | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- <b>دراسة مقارنة بين معاملات MFCC و LSF في التعرف التلقائي على الأرقام المعزولة المنطوقة باللغتين البرتغالية والإنجليزية</ b> - DOI: 10.4025/actascitechnol.v35i4.19825
- Translated title (French)
- <b>Une étude comparative entre les coefficients MFCC et LSF dans la reconnaissance automatique des chiffres isolés prononcés en portugais et en anglais</b> - doi : 10.4025/actascitechnol.v35i4.19825
- Translated title (Spanish)
- <b>Un estudio comparativo entre los coeficientes MFCC y LSF en el reconocimiento automático de dígitos aislados pronunciados en portugués e inglés</b> - doi: 10.4025/actascitechnol.v35i4.19825
Identifiers
- Other
- https://openalex.org/W2033546574
- DOI
- 10.4025/actascitechnol.v35i4.19825
            
              References
            
          
        - https://openalex.org/W1496562625
- https://openalex.org/W1533017336
- https://openalex.org/W1766888123
- https://openalex.org/W1840338487
- https://openalex.org/W2009674825
- https://openalex.org/W2031614119
- https://openalex.org/W2032423026
- https://openalex.org/W2039447481
- https://openalex.org/W2093076482
- https://openalex.org/W2100021885
- https://openalex.org/W2112865076
- https://openalex.org/W2128653836
- https://openalex.org/W2188882424
- https://openalex.org/W26561054