Published January 1, 2021
                      
                       | Version v1
                    
                    
                      
                        
                          Publication
                        
                      
                      
                        
                          
                        
                        
                          Open
                        
                      
                    
                  Token-Level Multilingual Epidemic Dataset for Event Extraction
Creators
- 1. Multimedia University
- 2. Université de La Rochelle
- 3. Sorbonne University Abu Dhabi
- 4. Sorbonne Université
- 5. Universität Innsbruck
Description
In this paper, we present a dataset and a baseline evaluation for multilingual epidemic event extraction. We experiment with a multilingual news dataset which we annotate at the token level, a common tagging scheme utilized in event extraction systems. We approach the task of extracting epidemic events by first detecting the relevant documents from a large collection of news reports. Then, event extraction (disease names and locations) is performed on the detected relevant documents. Preliminary experiments with the entire dataset and with ground-truth relevant documents showed promising results, while also establishing a stronger baseline for epidemiological event extraction.
Translated Descriptions
      
        ⚠️
        This is an automatic machine translation with an accuracy of 90-95%
      
      
  
    
       
  
    
       
  
    
       
  
    
  Translated Description (Arabic)
في هذه الورقة، نقدم مجموعة بيانات وتقييمًا أساسيًا لاستخراج الأحداث الوبائية متعددة اللغات. نقوم بتجربة مجموعة بيانات إخبارية متعددة اللغات نقوم بتعليقها على مستوى الرمز المميز، وهو نظام وسم شائع يستخدم في أنظمة استخراج الأحداث. نحن نتعامل مع مهمة استخراج الأحداث الوبائية من خلال الكشف أولاً عن الوثائق ذات الصلة من مجموعة كبيرة من التقارير الإخبارية. بعد ذلك، يتم استخراج الأحداث (أسماء الأمراض ومواقعها) على الوثائق ذات الصلة المكتشفة. أظهرت التجارب الأولية مع مجموعة البيانات بأكملها ومع الوثائق ذات الصلة بالحقيقة الأرضية نتائج واعدة، مع إنشاء خط أساس أقوى لاستخراج الأحداث الوبائية.Translated Description (French)
Dans cet article, nous présentons un ensemble de données et une évaluation de base pour l'extraction d'événements épidémiques multilingues. Nous expérimentons avec un ensemble de données d'actualités multilingues que nous annotons au niveau des jetons, un schéma de balisage commun utilisé dans les systèmes d'extraction d'événements. Nous abordons la tâche d'extraire les événements épidémiques en détectant d'abord les documents pertinents à partir d'une grande collection de reportages. Ensuite, l'extraction des événements (noms et emplacements des maladies) est effectuée sur les documents pertinents détectés. Des expériences préliminaires avec l'ensemble des données et des documents pertinents sur la vérité du terrain ont montré des résultats prometteurs, tout en établissant une base de référence plus solide pour l'extraction des événements épidémiologiques.Translated Description (Spanish)
En este documento, presentamos un conjunto de datos y una evaluación de referencia para la extracción multilingüe de eventos epidémicos. Experimentamos con un conjunto de datos de noticias multilingües que anotamos a nivel de token, un esquema de etiquetado común utilizado en los sistemas de extracción de eventos. Abordamos la tarea de extraer eventos epidémicos detectando primero los documentos relevantes de una gran colección de informes de noticias. Luego, se realiza la extracción del evento (nombres y ubicaciones de la enfermedad) en los documentos relevantes detectados. Los experimentos preliminares con todo el conjunto de datos y con documentos relevantes sobre el terreno mostraron resultados prometedores, al tiempo que establecieron una línea de base más sólida para la extracción de eventos epidemiológicos.Files
      
        Mutuvi2021_Chapter_Token-LevelMultilingualEpidemi.pdf.pdf
        
      
    
    
      
        Files
         (164.1 kB)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:c248218d60c14a1c2d1d0073bbeecda0 | 164.1 kB | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- مجموعة بيانات الأوبئة متعددة اللغات على مستوى الرموز لاستخراج الأحداث
- Translated title (French)
- Ensemble de données épidémiques multilingues au niveau des jetons pour l'extraction d'événements
- Translated title (Spanish)
- Conjunto de datos epidemiológicos multilingües a nivel de token para la extracción de eventos
Identifiers
- Other
- https://openalex.org/W3198534705
- DOI
- 10.1007/978-3-030-86324-1_6
            
              References
            
          
        - https://openalex.org/W1871657759
- https://openalex.org/W2048525542
- https://openalex.org/W2053154970
- https://openalex.org/W2296283641
- https://openalex.org/W2559938373
- https://openalex.org/W2604591718
- https://openalex.org/W2962902328
- https://openalex.org/W2963341956
- https://openalex.org/W2999823319
- https://openalex.org/W4234325645