Published July 1, 2021 | Version v1
Publication

Arabic Biomedical Community Question Answering Based on Contextualized Embeddings

  • 1. Sidi Mohamed Ben Abdellah University
  • 2. Université Ibn-Tofail
  • 3. Universitat Politècnica de Catalunya

Description

Community question answering has become increasingly important as they are practical for seeking and sharing information. Applying deep learning models often leads to good performance, but it requires an extensive amount of annotated data, a problem exacerbated for languages suffering a scarcity of resources. Contextualized language representation models have gained success due to promising results obtained on a wide array of downstream natural language processing tasks such as text classification, textual entailment, and paraphrase identification. This paper presents a novel approach by fine-tuning contextualized embeddings for a medical domain community question answering task. The authors propose an architecture combining two neural models powered by pre-trained contextual embeddings to learn a sentence representation and thereafter fine-tuned on the task to compute a score used for both ranking and classification. The experimental results on SemEval Task 3 CQA show that the model significantly outperforms the state-of-the-art models by almost 2% for the '16 edition and 1% for the '17 edition.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

أصبحت الإجابة على أسئلة المجتمع ذات أهمية متزايدة لأنها عملية للبحث عن المعلومات ومشاركتها. غالبًا ما يؤدي تطبيق نماذج التعلم العميق إلى أداء جيد، لكنه يتطلب كمية هائلة من البيانات المشروحة، وهي مشكلة تتفاقم بالنسبة للغات التي تعاني من ندرة الموارد. اكتسبت نماذج تمثيل اللغة السياقية نجاحًا بسبب النتائج الواعدة التي تم الحصول عليها في مجموعة واسعة من مهام معالجة اللغة الطبيعية النهائية مثل تصنيف النص، والاستيعاب النصي، وتحديد إعادة الصياغة. تقدم هذه الورقة نهجًا جديدًا من خلال الضبط الدقيق للتضمينات السياقية لمهمة الإجابة على أسئلة مجتمع المجال الطبي. يقترح المؤلفون بنية تجمع بين نموذجين عصبيين مدعومين بتضمينات سياقية مدربة مسبقًا لتعلم تمثيل الجملة وبعد ذلك يتم ضبطها بدقة على مهمة حساب النتيجة المستخدمة لكل من الترتيب والتصنيف. تُظهر النتائج التجريبية في SemEval Task 3 CQA أن النموذج يتفوق بشكل كبير على النماذج الحديثة بنسبة 2 ٪ تقريبًا لإصدار "16" و 1 ٪ لإصدار "17".

Translated Description (French)

La réponse aux questions de la communauté est devenue de plus en plus importante car elle est pratique pour la recherche et le partage d'informations. L'application de modèles d'apprentissage profond conduit souvent à de bonnes performances, mais elle nécessite une grande quantité de données annotées, un problème exacerbé pour les langues qui souffrent d'une pénurie de ressources. Les modèles de représentation contextualisée du langage ont connu du succès grâce aux résultats prometteurs obtenus sur un large éventail de tâches de traitement du langage naturel en aval telles que la classification du texte, l'implication textuelle et l'identification des paraphrases. Cet article présente une nouvelle approche en affinant les intégrations contextualisées pour une tâche de réponse aux questions de la communauté du domaine médical. Les auteurs proposent une architecture combinant deux modèles neuronaux alimentés par des intégrations contextuelles pré-entraînées pour apprendre une représentation de phrase, puis affinés sur la tâche pour calculer un score utilisé à la fois pour le classement et la classification. Les résultats expérimentaux sur SemEval Task 3 CQA montrent que le modèle surpasse significativement les modèles de pointe de près de 2% pour l'édition '16 et de 1% pour l'édition'17.

Translated Description (Spanish)

Las respuestas a las preguntas de la comunidad se han vuelto cada vez más importantes, ya que son prácticas para buscar y compartir información. La aplicación de modelos de aprendizaje profundo a menudo conduce a un buen rendimiento, pero requiere una gran cantidad de datos anotados, un problema exacerbado para los idiomas que sufren una escasez de recursos. Los modelos de representación contextualizada del lenguaje han tenido éxito debido a los resultados prometedores obtenidos en una amplia gama de tareas de procesamiento del lenguaje natural, como la clasificación de textos, la implicación textual y la identificación de paráfrasis. Este documento presenta un enfoque novedoso mediante el ajuste fino de incrustaciones contextualizadas para una tarea de respuesta de preguntas de la comunidad de dominio médico. Los autores proponen una arquitectura que combina dos modelos neuronales impulsados por incrustaciones contextuales preentrenadas para aprender una representación de oración y luego afinados en la tarea para calcular una puntuación utilizada tanto para la clasificación como para la clasificación. Los resultados experimentales en SemEval Task 3 CQA muestran que el modelo supera significativamente a los modelos de última generación en casi un 2% para la edición '16 y un 1% para la edición'17.

Additional details

Additional titles

Translated title (Arabic)
الإجابة على سؤال المجتمع الطبي الحيوي العربي بناءً على التضمينات السياقية
Translated title (French)
Réponse aux questions de la communauté biomédicale arabe basée sur des intégrations contextualisées
Translated title (Spanish)
Respuesta a preguntas de la comunidad biomédica árabe basada en incrustaciones contextualizadas

Identifiers

Other
https://openalex.org/W3195021478
DOI
10.4018/ijiit.2021070102

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Morocco

References

  • https://openalex.org/W1552847225
  • https://openalex.org/W2120699290
  • https://openalex.org/W2192410469
  • https://openalex.org/W2602998732
  • https://openalex.org/W2743040064
  • https://openalex.org/W2908274699
  • https://openalex.org/W2916264245
  • https://openalex.org/W2956506767
  • https://openalex.org/W2965921998