Image Captioning Generator Text-to-Speech
- 1. Maharaja Engineering College
Description
A model is created for blind people that can guide and support them while traveling on the highways just with the help of a smartphone application. This can be accomplished by first converting the scene in front of the user into text and then converting text into voice output. Then a method for the generation of image legends based on deep neural networks. With an image as an entry, the method can display an English sentence describing the contents of the image. The user first provides a voice command, then a quick snapshot is captured by the camera or webcam. This image is then fed as input to the image caption generator template that generates a caption for the image. Next, this caption text is converted to speech, which gives rise to a voice message on the description of the image.
Translated Descriptions
Translated Description (Arabic)
تم إنشاء نموذج للمكفوفين يمكنه توجيههم ودعمهم أثناء السفر على الطرق السريعة فقط بمساعدة تطبيق الهاتف الذكي. يمكن تحقيق ذلك عن طريق تحويل المشهد أمام المستخدم إلى نص أولاً ثم تحويل النص إلى إخراج صوتي. ثم طريقة لتوليد أساطير الصور بناءً على الشبكات العصبية العميقة. باستخدام صورة كمدخل، يمكن للطريقة عرض جملة إنجليزية تصف محتويات الصورة. يوفر المستخدم أولاً أمرًا صوتيًا، ثم يتم التقاط لقطة سريعة بواسطة الكاميرا أو كاميرا الويب. ثم يتم تغذية هذه الصورة كإدخال في قالب مولد التسمية التوضيحية للصورة الذي ينشئ تسمية توضيحية للصورة. بعد ذلك، يتم تحويل نص التسمية التوضيحية هذا إلى كلام، مما يؤدي إلى ظهور رسالة صوتية على وصف الصورة.Translated Description (French)
Un modèle est créé pour les personnes aveugles qui peuvent les guider et les soutenir lors de leurs déplacements sur les autoroutes à l'aide d'une application pour smartphone. Cela peut être accompli en convertissant d'abord la scène devant l'utilisateur en texte, puis en convertissant le texte en sortie vocale. Puis une méthode de génération de légendes d'images basée sur des réseaux de neurones profonds. Avec une image comme entrée, le procédé peut afficher une phrase en anglais décrivant le contenu de l'image. L'utilisateur fournit d'abord une commande vocale, puis un instantané rapide est capturé par la caméra ou la webcam. Cette image est ensuite alimentée en entrée du modèle de générateur de sous-titres d'image qui génère un sous-titre pour l'image. Ensuite, ce texte de légende est converti en parole, ce qui donne lieu à un message vocal sur la description de l'image.Translated Description (Spanish)
Se crea un modelo para personas ciegas que puede guiarlas y apoyarlas mientras viajan por las carreteras solo con la ayuda de una aplicación para teléfonos inteligentes. Esto se puede lograr convirtiendo primero la escena frente al usuario en texto y luego convirtiendo el texto en salida de voz. Luego un método para la generación de leyendas de imágenes basado en redes neuronales profundas. Con una imagen como entrada, el método puede mostrar una oración en inglés que describe el contenido de la imagen. El usuario primero proporciona un comando de voz, luego la cámara o la cámara web capturan una instantánea rápida. Esta imagen se alimenta como entrada a la plantilla del generador de subtítulos de imagen que genera un subtítulo para la imagen. A continuación, este texto de subtítulos se convierte en voz, lo que da lugar a un mensaje de voz en la descripción de la imagen.Additional details
Additional titles
- Translated title (Arabic)
- منشئ التسميات التوضيحية للصورة تحويل النص إلى كلام
- Translated title (French)
- Générateur de sous-titrage d'image Text-to-Speech
- Translated title (Spanish)
- Generador de subtítulos de imagen de texto a voz
Identifiers
- Other
- https://openalex.org/W4308117025
- DOI
- 10.47164/ijngc.v13i3.669
            
              References
            
          
        - https://openalex.org/W1895577753
- https://openalex.org/W1905882502
- https://openalex.org/W2108598243
- https://openalex.org/W2963213879
- https://openalex.org/W2963686907
- https://openalex.org/W68733909