Published January 1, 2021 | Version v1
Publication Open

Token-Level Multilingual Epidemic Dataset for Event Extraction

  • 1. Multimedia University
  • 2. Université de La Rochelle
  • 3. Sorbonne University Abu Dhabi
  • 4. Sorbonne Université
  • 5. Universität Innsbruck

Description

In this paper, we present a dataset and a baseline evaluation for multilingual epidemic event extraction. We experiment with a multilingual news dataset which we annotate at the token level, a common tagging scheme utilized in event extraction systems. We approach the task of extracting epidemic events by first detecting the relevant documents from a large collection of news reports. Then, event extraction (disease names and locations) is performed on the detected relevant documents. Preliminary experiments with the entire dataset and with ground-truth relevant documents showed promising results, while also establishing a stronger baseline for epidemiological event extraction.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في هذه الورقة، نقدم مجموعة بيانات وتقييمًا أساسيًا لاستخراج الأحداث الوبائية متعددة اللغات. نقوم بتجربة مجموعة بيانات إخبارية متعددة اللغات نقوم بتعليقها على مستوى الرمز المميز، وهو نظام وسم شائع يستخدم في أنظمة استخراج الأحداث. نحن نتعامل مع مهمة استخراج الأحداث الوبائية من خلال الكشف أولاً عن الوثائق ذات الصلة من مجموعة كبيرة من التقارير الإخبارية. بعد ذلك، يتم استخراج الأحداث (أسماء الأمراض ومواقعها) على الوثائق ذات الصلة المكتشفة. أظهرت التجارب الأولية مع مجموعة البيانات بأكملها ومع الوثائق ذات الصلة بالحقيقة الأرضية نتائج واعدة، مع إنشاء خط أساس أقوى لاستخراج الأحداث الوبائية.

Translated Description (French)

Dans cet article, nous présentons un ensemble de données et une évaluation de base pour l'extraction d'événements épidémiques multilingues. Nous expérimentons avec un ensemble de données d'actualités multilingues que nous annotons au niveau des jetons, un schéma de balisage commun utilisé dans les systèmes d'extraction d'événements. Nous abordons la tâche d'extraire les événements épidémiques en détectant d'abord les documents pertinents à partir d'une grande collection de reportages. Ensuite, l'extraction des événements (noms et emplacements des maladies) est effectuée sur les documents pertinents détectés. Des expériences préliminaires avec l'ensemble des données et des documents pertinents sur la vérité du terrain ont montré des résultats prometteurs, tout en établissant une base de référence plus solide pour l'extraction des événements épidémiologiques.

Translated Description (Spanish)

En este documento, presentamos un conjunto de datos y una evaluación de referencia para la extracción multilingüe de eventos epidémicos. Experimentamos con un conjunto de datos de noticias multilingües que anotamos a nivel de token, un esquema de etiquetado común utilizado en los sistemas de extracción de eventos. Abordamos la tarea de extraer eventos epidémicos detectando primero los documentos relevantes de una gran colección de informes de noticias. Luego, se realiza la extracción del evento (nombres y ubicaciones de la enfermedad) en los documentos relevantes detectados. Los experimentos preliminares con todo el conjunto de datos y con documentos relevantes sobre el terreno mostraron resultados prometedores, al tiempo que establecieron una línea de base más sólida para la extracción de eventos epidemiológicos.

Files

Mutuvi2021_Chapter_Token-LevelMultilingualEpidemi.pdf.pdf

Files (164.1 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:c248218d60c14a1c2d1d0073bbeecda0
164.1 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مجموعة بيانات الأوبئة متعددة اللغات على مستوى الرموز لاستخراج الأحداث
Translated title (French)
Ensemble de données épidémiques multilingues au niveau des jetons pour l'extraction d'événements
Translated title (Spanish)
Conjunto de datos epidemiológicos multilingües a nivel de token para la extracción de eventos

Identifiers

Other
https://openalex.org/W3198534705
DOI
10.1007/978-3-030-86324-1_6

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Malaysia

References

  • https://openalex.org/W1871657759
  • https://openalex.org/W2048525542
  • https://openalex.org/W2053154970
  • https://openalex.org/W2296283641
  • https://openalex.org/W2559938373
  • https://openalex.org/W2604591718
  • https://openalex.org/W2962902328
  • https://openalex.org/W2963341956
  • https://openalex.org/W2999823319
  • https://openalex.org/W4234325645