Published September 2, 2023 | Version v1
Publication Open

Deep neural architecture for natural language image synthesis for Tamil text using BASEGAN and hybrid super resolution GAN (HSRGAN)

  • 1. Vellore Institute of Technology University

Description

Abstract Tamil is a language that has the most extended history and is a conventional language of India. It has antique origins and a distinct tradition. A study reveals that at the beginning of the twenty-first century, more than 66 million people spoke Tamil. In the present time, image synthesis from text emerged as a promising advancement in computer vision applications. The research work done so far in intelligent systems is trained in universal language but still has not achieved the desired development level in regional languages. Regional languages have a greater scope for developing applications and will enhance more research areas to be explored, ruling out the barrier. The current work using Auto Encoders failed at the point of providing vivid information along with essential descriptions of the synthesised images. The work aims to generate embedding vectors using a language model headed by image synthesis using GAN (Generative Adversarial Network) architecture. The proposed method is divided into two stages: designing a language model TBERTBASECASE model for generating embedding vectors. Synthesising images using Generative Adversarial Network called BASEGAN, the resolution has been improved through two-stage architecture named HYBRID SUPER RESOLUTION GAN. The work uses Oxford-102 and CUB-200 datasets. The framework efficiency has been measured using F1 Score, Fréchet inception distance (FID), and Inception Score (IS). Language and image synthesis architecture proposed can bridge the gap between the research ideas in regional languages.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

التاميل المجردة هي لغة لها تاريخ طويل ولغة تقليدية في الهند. لها أصول عتيقة وتقاليد متميزة. كشفت دراسة أنه في بداية القرن الحادي والعشرين، كان أكثر من 66 مليون شخص يتحدثون التاميلية. في الوقت الحاضر، ظهر تركيب الصور من النص كتقدم واعد في تطبيقات رؤية الكمبيوتر. يتم تدريب العمل البحثي الذي تم إجراؤه حتى الآن في الأنظمة الذكية على اللغة العالمية ولكنه لم يحقق بعد مستوى التطور المطلوب في اللغات الإقليمية. تتمتع اللغات الإقليمية بنطاق أكبر لتطوير التطبيقات وستعزز المزيد من مجالات البحث التي سيتم استكشافها، مما يستبعد العائق. فشل العمل الحالي باستخدام التشفير التلقائي عند نقطة توفير معلومات حية جنبًا إلى جنب مع الأوصاف الأساسية للصور المركبة. يهدف العمل إلى توليد متجهات التضمين باستخدام نموذج لغوي يرأسه تركيب الصور باستخدام بنية GAN (شبكة الخصومة التوليدية). تنقسم الطريقة المقترحة إلى مرحلتين: تصميم نموذج لغة نموذج TBERTBASECASE لتوليد متجهات التضمين. من خلال تجميع الصور باستخدام شبكة الخصومة التوليدية المسماة BASEGAN، تم تحسين الدقة من خلال بنية على مرحلتين تسمى GAN فائقة الدقة الهجينة. يستخدم العمل مجموعات بيانات Oxford -102 و CUB -200. تم قياس كفاءة الإطار باستخدام درجة F1، ومسافة بدء Fréchet (FID)، ودرجة البدء (IS). يمكن للهندسة المعمارية المقترحة لتوليف اللغة والصورة أن تسد الفجوة بين أفكار البحث في اللغات الإقليمية.

Translated Description (French)

Le tamoul abstrait est une langue qui a l'histoire la plus étendue et est une langue conventionnelle de l'Inde. Il a des origines antiques et une tradition distincte. Une étude révèle qu'au début du XXIe siècle, plus de 66 millions de personnes parlaient le tamoul. À l'heure actuelle, la synthèse d'images à partir de texte est apparue comme une avancée prometteuse dans les applications de vision par ordinateur. Les travaux de recherche réalisés jusqu'à présent dans les systèmes intelligents sont formés au langage universel mais n'ont toujours pas atteint le niveau de développement souhaité dans les langues régionales. Les langues régionales ont une plus grande marge de manœuvre pour développer des applications et amélioreront davantage de domaines de recherche à explorer, éliminant ainsi la barrière. Le travail actuel utilisant des codeurs automatiques a échoué au point de fournir des informations vives ainsi que des descriptions essentielles des images synthétisées. Le travail vise à générer des vecteurs d'intégration à l'aide d'un modèle de langage dirigé par la synthèse d'images à l'aide de l'architecture GaN (Generative Adversarial Network). Le procédé proposé est divisé en deux étapes : concevoir un modèle de langage TBERTBASECASE pour générer des vecteurs d'intégration. En synthétisant des images à l'aide du Réseau Adversaire Génératif appelé BASEGAN, la résolution a été améliorée grâce à une architecture en deux étapes appelée SUPER RÉSOLUTION HYBRIDE GAN. Le travail utilise des ensembles de données Oxford-102 et CUB-200. L'efficacité du cadre a été mesurée à l'aide du score F1, de la distance de démarrage de Fréchet (FID) et du score de démarrage (IS). L'architecture de synthèse de langage et d'image proposée peut combler le fossé entre les idées de recherche dans les langues régionales.

Translated Description (Spanish)

El tamil abstracto es una lengua que tiene la historia más extensa y es una lengua convencional de la India. Tiene orígenes antiguos y una tradición distinta. Un estudio revela que a principios del siglo XXI, más de 66 millones de personas hablaban tamil. En la actualidad, la síntesis de imágenes a partir de texto surgió como un avance prometedor en las aplicaciones de visión artificial. El trabajo de investigación realizado hasta ahora en sistemas inteligentes está capacitado en el lenguaje universal, pero aún no ha alcanzado el nivel de desarrollo deseado en los idiomas regionales. Los idiomas regionales tienen un mayor alcance para desarrollar aplicaciones y mejorarán más áreas de investigación a explorar, descartando la barrera. El trabajo actual con Auto Encoders falló en el punto de proporcionar información vívida junto con descripciones esenciales de las imágenes sintetizadas. El trabajo tiene como objetivo generar vectores de incrustación utilizando un modelo de lenguaje encabezado por la síntesis de imágenes utilizando la arquitectura GAN (Generative Adversarial Network). El método propuesto se divide en dos etapas: diseño de un modelo de lenguaje modelo TBERTBASECASE para la generación de vectores de incrustación. Sintetizando imágenes utilizando una red generativa de adversarios llamada BASEGAN, la resolución se ha mejorado a través de una arquitectura de dos etapas llamada SUPERRESOLUCIÓN HÍBRIDA GAN. El trabajo utiliza conjuntos de datos Oxford-102 y CUB-200. La eficiencia del marco se ha medido utilizando la puntuación F1, la distancia de inicio de Fréchet (FID) y la puntuación de inicio (IS). La arquitectura de síntesis de lenguaje e imagen propuesta puede cerrar la brecha entre las ideas de investigación en los idiomas regionales.

Files

s41598-023-41484-9.pdf.pdf

Files (3.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:30ce99ed52aab367ad94cd5de8879a4f
3.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
بنية عصبية عميقة لتوليف صورة اللغة الطبيعية لنص التاميل باستخدام BASEGAN والهجين فائق الدقة GAN (HSRGAN)
Translated title (French)
Architecture neuronale profonde pour la synthèse d'images en langage naturel pour le texte tamoul à l'aide de BASEGAN et du GaN super résolution hybride (HSRGAN)
Translated title (Spanish)
Arquitectura neuronal profunda para la síntesis de imágenes en lenguaje natural para texto en tamil utilizando BASEGAN y GAN de superresolución híbrida (HSRGAN)

Identifiers

Other
https://openalex.org/W4386387429
DOI
10.1038/s41598-023-41484-9

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2183341477
  • https://openalex.org/W2549139847
  • https://openalex.org/W2784936144
  • https://openalex.org/W2891158090
  • https://openalex.org/W2951597862
  • https://openalex.org/W2963073614
  • https://openalex.org/W2963270749
  • https://openalex.org/W2964024144
  • https://openalex.org/W2976465187
  • https://openalex.org/W2985480251
  • https://openalex.org/W3023360076
  • https://openalex.org/W3034156543
  • https://openalex.org/W3034414304
  • https://openalex.org/W3043022238
  • https://openalex.org/W3096424111
  • https://openalex.org/W3120215781
  • https://openalex.org/W3132883577
  • https://openalex.org/W3141961557
  • https://openalex.org/W3145048986
  • https://openalex.org/W3152673717
  • https://openalex.org/W3156197110
  • https://openalex.org/W3158091094
  • https://openalex.org/W3162018393
  • https://openalex.org/W3164115078
  • https://openalex.org/W3175170601
  • https://openalex.org/W3185504223
  • https://openalex.org/W3185972086
  • https://openalex.org/W3193514658
  • https://openalex.org/W3199888436
  • https://openalex.org/W3209223032
  • https://openalex.org/W3212007445
  • https://openalex.org/W4214861050
  • https://openalex.org/W4280578843
  • https://openalex.org/W4312554034
  • https://openalex.org/W4321089621
  • https://openalex.org/W4385403378