Published January 1, 2021 | Version v1
Publication Open

Question Answering over Electronic Devices: A New Benchmark Dataset and a Multi-Task Learning based QA Framework

  • 1. Indian Institute of Technology Kharagpur
  • 2. Samsung (United Kingdom)
  • 3. Leibniz University Hannover

Description

Answering questions asked from instructional corpora such as E-manuals, recipe books, etc., has been far less studied than open-domain factoid context-based question answering.This can be primarily attributed to the absence of standard benchmark datasets.In this paper we meticulously create a large amount of data connected with E-manuals and develop suitable algorithm to exploit it.We collect E-Manual Corpus, a huge corpus of 307,957 E-manuals and pretrain RoBERTa on this large corpus.We create various benchmark QA datasets which include question answer pairs curated by experts based upon two E-manuals, real user questions from Community Question Answering Forum pertaining to E-manuals etc.We introduce EMQAP (E-Manual Question Answering Pipeline) that answers questions pertaining to electronics devices.Built upon the pretrained RoBERTa, it harbors a supervised multi-task learning framework which efficiently performs the dual tasks of identifying the section in the E-manual where the answer can be found and the exact answer span within that section.For E-Manual annotated question-answer pairs, we show an improvement of about 40% in ROUGE-L F1 scores over the most competitive baseline.We perform a detailed ablation study and establish the versatility of EMQAP across different circumstances.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الإجابة على الأسئلة المطروحة من المجموعات التعليمية مثل الكتيبات الإلكترونية وكتب الوصفات وما إلى ذلك، تمت دراستها بشكل أقل بكثير من الإجابة على الأسئلة القائمة على السياق الواقعي في المجال المفتوح. يمكن أن يعزى ذلك في المقام الأول إلى عدم وجود مجموعات بيانات معيارية. في هذه الورقة، نقوم بدقة بإنشاء كمية كبيرة من البيانات المرتبطة بالكتيبات الإلكترونية وتطوير خوارزمية مناسبة لاستغلالها. نجمع مجموعة الكتيبات الإلكترونية، وهي مجموعة ضخمة من 307،957 دليلًا إلكترونيًا ونقوم بتدريب روبيرتا على هذه المجموعة الكبيرة. نقوم بإنشاء مجموعات بيانات ضمان الجودة المعيارية المختلفة التي تشمل أزواج إجابات الأسئلة برعاية الخبراء بناءً على اثنين من الكتيبات الإلكترونية، أسئلة المستخدم الحقيقية من منتدى إجابات أسئلة المجتمع المتعلقة بالكتيبات الإلكترونية وما إلى ذلك. نقدم EMQAP (دليل إلكتروني للإجابة على الأسئلة) التي تجيب على الأسئلة المتعلقة بالأجهزة الإلكترونية. بناءً على RoBERTa المدرب مسبقًا، فإنه يضم إطارًا تعليميًا متعدد المهام خاضعًا للإشراف والذي يؤدي بكفاءة المهام المزدوجة لتحديد القسم في الدليل الإلكتروني حيث يمكن العثور على الإجابة ونطاق الإجابة الدقيق داخل هذا القسم. بالنسبة لأزواج الأسئلة والأجوبة المشروحة في الدليل الإلكتروني، نظهر تحسنًا بنسبة 40 ٪ تقريبًا في درجات ROUGE - L F1 على خط الأساس الأكثر تنافسية. نحن نؤدي دراسة تفصيلية للاستئصال وتحديد مدى تعدد استخدامات EMQAP في مختلف الظروف.

Translated Description (French)

Les réponses aux questions posées à partir de corpus pédagogiques tels que les manuels électroniques, les livres de recettes, etc., ont été beaucoup moins étudiées que les réponses aux questions contextuelles factoïdes du domaine ouvert. Cela peut être principalement attribué à l'absence d'ensembles de données de référence standard. Dans cet article, nous créons méticuleusement une grande quantité de données liées aux manuels électroniques et développons un algorithme approprié pour les exploiter. Nous collectons E-Manual Corpus, un énorme corpus de 307 957 manuels électroniques et préparons RoBERTa sur ce grand corpus. Nous créons divers ensembles de données d'assurance qualité de référence qui comprennent des paires de réponses aux questions organisées par des experts basés on two E-manuals, real user questions from Community Question Answering Forum relating to E-manuals etc. We introduce EMQAP (E-Manual Question Answering Pipeline) that answers questions relating to electronics devices.Built on the pre-formed RoBERTa, it harbres a supervised multi-task learning framework which effectively perform the dual tasks of identifying the section in the E-manual where the answer can be found and the exact answer span within that section.For E-Manual annotated question-answer pairs, we show a improvement of about 40% in ROUGE-L F1 scores over the most competitive baseline.We perform une étude détaillée sur l'ablation et établir la polyvalence d'EMQAP dans différentes circonstances.

Translated Description (Spanish)

Responder a las preguntas de los corpus de instrucción, como manuales electrónicos, libros de recetas, etc., ha sido mucho menos estudiado que las respuestas a preguntas basadas en el contexto factoide de dominio abierto. Esto se puede atribuir principalmente a la ausencia de conjuntos de datos de referencia estándar. En este documento creamos meticulosamente una gran cantidad de datos relacionados con manuales electrónicos y desarrollamos un algoritmo adecuado para explotarlo. Recopilamos E-Manual Corpus, un enorme corpus de 307.957 manuales electrónicos y pre-entrenamos RoBERTa en este gran corpus. Creamos varios conjuntos de datos de control de calidad de referencia que incluyen pares de respuestas a preguntas seleccionados por expertos basados sobre dos manuales electrónicos, preguntas de usuarios reales del Foro de respuesta a preguntas de la comunidad relacionadas con manuales electrónicos, etc. Presentamos EMQAP (E-Manual Question Answering Pipeline) que responde preguntas relacionadas con dispositivos electrónicos. Construido sobre el RoBERTa preentrenado, alberga un marco de aprendizaje multitarea supervisado que realiza de manera eficiente las tareas duales de identificar la sección en el manual electrónico donde se puede encontrar la respuesta y el intervalo de respuesta exacto dentro de esa sección. Para los pares de preguntas y respuestas anotadas anuales de E-Man, mostramos una mejora de aproximadamente el 40% en las puntuaciones de ROUGE-L F1 sobre la línea de base más competitiva. un estudio detallado de ablación y establecer la versatilidad de EMQAP en diferentes circunstancias.

Files

2021.findings-emnlp.392.pdf.pdf

Files (478.6 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:711c5343af42d60e598888c7d44539e7
478.6 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
الإجابة على سؤال حول الأجهزة الإلكترونية: مجموعة بيانات معيارية جديدة وإطار ضمان الجودة القائم على التعلم متعدد المهام
Translated title (French)
Réponse aux questions sur les appareils électroniques : un nouvel ensemble de données de référence et un cadre d'assurance qualité basé sur l'apprentissage multitâche
Translated title (Spanish)
Respuesta a preguntas sobre dispositivos electrónicos: un nuevo conjunto de datos de referencia y un marco de control de calidad basado en el aprendizaje multitarea

Identifiers

Other
https://openalex.org/W3200174022
DOI
10.18653/v1/2021.findings-emnlp.392

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India

References

  • https://openalex.org/W2064675550
  • https://openalex.org/W2250539671
  • https://openalex.org/W2294798173
  • https://openalex.org/W2560647685
  • https://openalex.org/W2963748441
  • https://openalex.org/W2970771982
  • https://openalex.org/W3034478991
  • https://openalex.org/W3098324846
  • https://openalex.org/W3099700870
  • https://openalex.org/W3100468923
  • https://openalex.org/W3103978933