Published January 1, 2023 | Version v1
Publication Open

Learning to Imagine: Visually-Augmented Natural Language Generation

  • 1. Renmin University of China
  • 2. Beijing Institute of Big Data Research
  • 3. Université de Montréal

Description

People often imagine relevant scenes to aid in the writing process.In this work, we aim to utilize visual information for composition in the same manner as humans.We propose a method, LIVE, that makes pre-trained language models (PLMs) Learn to Imagine for Visuallyaugmented natural language gEneration.First, we imagine the scene based on the text: we use a diffusion model to synthesize high-quality images conditioned on the input texts.Second, we use CLIP to determine whether the text can evoke the imagination in a posterior way.Finally, our imagination is dynamic, and we conduct synthesis for each sentence rather than generate only one image for an entire paragraph.Technically, we propose a novel plug-and-play fusion layer to obtain visually-augmented representations for each text.Our vision-text fusion layer is compatible with Transformerbased architecture.We have conducted extensive experiments on four generation tasks using BART and T5, and the automatic results and human evaluation demonstrate the effectiveness of our proposed method.We will release the code, model, and data at the link: https://github.com/RUCAIBox/LIVE.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

غالبًا ما يتخيل الناس مشاهد ذات صلة للمساعدة في عملية الكتابة. في هذا العمل، نهدف إلى استخدام المعلومات المرئية للتكوين بنفس الطريقة التي يستخدمها البشر. نقترح طريقة، مباشرة، تجعل نماذج اللغة المدربة مسبقًا (PLMs) تتعلم التخيل من أجل إدخال اللغة الطبيعية المرئية. أولاً، نتخيل المشهد بناءً على النص: نستخدم نموذج نشر لتوليف صور عالية الجودة مشروطة بنصوص الإدخال. ثانيًا، نستخدم مقطعًا لتحديد ما إذا كان النص يمكن أن يثير الخيال بطريقة خلفية. أخيرًا، خيالنا ديناميكي، ونجري توليفًا لكل جملة بدلاً من إنشاء صورة واحدة فقط لفقرة كاملة. من الناحية الفنية، نقترح طبقة اندماج جديدة للتوصيل والتشغيل للحصول على تمثيلات معززة بصريًا لكل نص. تتوافق طبقة اندماج النص المرئي لدينا مع العمارة القائمة على التحول. أجرينا تجارب مكثفة على أربع مهام باستخدام BART و T5، والنتائج التلقائية والتقييم البشري للطريقة المقترحة لإصدار التعليمات البرمجية، وسيقوم نموذج البيانات، ورابط مع الرابط: https://AUCLIVA.

Translated Description (French)

Les gens imaginent souvent des scènes pertinentes pour faciliter le processus d'écriture.Dans ce travail, nous visons à utiliser des informations visuelles pour la composition de la même manière que les humains.Nous proposons une méthode, en DIRECT, qui permet aux modèles de langage pré-entraînés (PLM) d'apprendre à imaginer pour le langage naturel visuellement augmenté.Premièrement, nous imaginons la scène sur la base du texte : nous utilisons un modèle de diffusion pour synthétiser des images de haute qualité conditionnées par les textes d'entrée.Deuxièmement, nous utilisons CLIP pour déterminer si le texte peut évoquer l'imagination de manière postérieure.Enfin, notre imagination est dynamique, et nous effectuons une synthèse pour chaque phrase plutôt que de générer une seule image pour un paragraphe entier.Techniquement, nous proposons une nouvelle couche de fusion plug-and-play pour obtenir des représentations visuellement augmentées pour chaque texte.Notre couche de fusion vision-texte est compatible avec l'architecture basée sur Transformer.Nous avons mené des expériences approfondies sur quatre tâches de génération en utilisant BART et T5, et les résultats automatiques et l'évaluation humaine démontrent l'efficacité de notre méthode proposée.Nous publierons le code, le modèle et les données sur le lien : https://github.com/RUCAIBox/LIVE.

Translated Description (Spanish)

Las personas a menudo imaginan escenas relevantes para ayudar en el proceso de escritura. En este trabajo, nuestro objetivo es utilizar la información visual para la composición de la misma manera que los humanos. Proponemos un método, en VIVO, que hace que los modelos de lenguaje preentrenados (PLM) aprendan a imaginar para la gEneración de lenguaje natural visualmente aumentada. En primer lugar, imaginamos la escena basada en el texto: utilizamos un modelo de difusión para sintetizar imágenes de alta calidad condicionadas por los textos de entrada. En segundo lugar, utilizamos CLIP para determinar si el texto puede evocar la imaginación de una manera posterior. Finalmente, nuestra imaginación es dinámica y realizamos síntesis para cada oración en lugar de generar solo una imagen para un párrafo completo. Técnicamente, proponemos una nueva capa de fusión plug-and-play para obtener representaciones visualmente aumentadas para cada texto. Nuestra capa de fusión visión-texto es compatible con la arquitectura basada en transformadores. Hemos realizado extensos experimentos en tareas de cuatro generaciones utilizando BART y T5, y los resultados automáticos y la evaluación humana demuestran la efectividad de nuestro método propuesto. Liberaremos la capa de fusión visión-texto, el código y los datos en el enlace: https://github.com/RUCAIBox/LIVE.

Files

2023.acl-long.526.pdf.pdf

Files (737.6 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:8f8f176c50391a82793644e837ef2acc
737.6 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تعلم التخيل: جيل اللغة الطبيعية المعزز بصريًا
Translated title (French)
Apprendre à imaginer : Génération de langage naturel visuellement augmentée
Translated title (Spanish)
Aprender a imaginar: generación de lenguaje natural aumentado visualmente

Identifiers

Other
https://openalex.org/W4385565354
DOI
10.18653/v1/2023.acl-long.526

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1956340063
  • https://openalex.org/W2101105183
  • https://openalex.org/W2183341477
  • https://openalex.org/W2277195237
  • https://openalex.org/W2466175319
  • https://openalex.org/W2886641317
  • https://openalex.org/W2963206148
  • https://openalex.org/W2963341956
  • https://openalex.org/W2963909453
  • https://openalex.org/W2963912046
  • https://openalex.org/W2989743967
  • https://openalex.org/W3034999214
  • https://openalex.org/W3087871082
  • https://openalex.org/W3100307207
  • https://openalex.org/W3101065397
  • https://openalex.org/W3102187933
  • https://openalex.org/W3168900788
  • https://openalex.org/W3172224317
  • https://openalex.org/W3173864402
  • https://openalex.org/W3199958362
  • https://openalex.org/W3206527789
  • https://openalex.org/W4221155857
  • https://openalex.org/W4224903949
  • https://openalex.org/W4226452284
  • https://openalex.org/W4229673855
  • https://openalex.org/W4285263089