Event extraction from Twitter using Non-Parametric Bayesian Mixture Model with Word Embeddings
Creators
- 1. Ministry of Education of the People's Republic of China
- 2. Southeast University
- 3. Aston University
Description
To extract structured representations of newsworthy events from Twitter, unsupervised models typically assume that tweets involving the same named entities and expressed using similar words are likely to belong to the same event.Hence, they group tweets into clusters based on the cooccurrence patterns of named entities and topical keywords.However, there are two main limitations.First, they require the number of events to be known beforehand, which is not realistic in practical applications.Second, they don't recognise that the same named entity might be referred to by multiple mentions and tweets using different mentions would be wrongly assigned to different events.To overcome these limitations, we propose a nonparametric Bayesian mixture model with word embeddings for event extraction, in which the number of events can be inferred automatically and the issue of lexical variations for the same named entity can be dealt with properly.Our model has been evaluated on three datasets with sizes ranging between 2,499 and over 60 million tweets.Experimental results show that our model outperforms the baseline approach on all datasets by 5-8% in F-measure.
Translated Descriptions
Translated Description (Arabic)
لاستخراج تمثيلات منظمة للأحداث ذات الأهمية الإخبارية من تويتر، تفترض النماذج غير الخاضعة للإشراف عادةً أن التغريدات التي تتضمن نفس الكيانات المسماة والتي يتم التعبير عنها باستخدام كلمات مماثلة من المحتمل أن تنتمي إلى نفس الحدث .وبالتالي، فإنها تجمع التغريدات في مجموعات بناءً على أنماط التكرار للكيانات المسماة والكلمات الرئيسية الموضعية .ومع ذلك، هناك قيدان رئيسيان. أولاً، تتطلب معرفة عدد الأحداث مسبقًا، وهو أمر غير واقعي في التطبيقات العملية .ثانيًا، إنهم لا يدركون أنه قد تتم الإشارة إلى نفس الكيان المسمى من خلال إشارات وتغريدات متعددة باستخدام إشارات مختلفة سيتم تعيينها بشكل خاطئ لأحداث مختلفة. للتغلب على هذه القيود، نقترح نموذج خليط بايزي غير بارامترية مع تضمين الكلمات لاستخراج الحدث، حيث يمكن استنتاج عدد الأحداث تلقائيًا ويمكن التعامل مع مسألة الاختلافات المعجمية لنفس الكيان المسمى بشكل صحيح. تم تقييم نموذجنا على ثلاث مجموعات بيانات بأحجام تتراوح بين 2499 وأكثر من 60 مليون تغريدة. تظهر النتائج التجريبية أن نموذجنا يتفوق على النهج الأساسي في جميع مجموعات البيانات 5-8 ٪ في مقياس F.Translated Description (French)
Pour extraire de Twitter des représentations structurées d'événements dignes d'intérêt, les modèles non supervisés supposent généralement que les tweets impliquant les mêmes entités nommées et exprimés à l'aide de mots similaires sont susceptibles d'appartenir au même événement. Par conséquent, ils regroupent les tweets en grappes en fonction des modèles de cooccurrence des entités nommées et des mots-clés d'actualité. Cependant, il existe deux limitations principales. Premièrement, ils exigent que le nombre d'événements soit connu à l'avance, ce qui n'est pas réaliste dans les applications pratiques. Deuxièmement, ils ne reconnaissent pas que la même entité nommée pourrait être désignée par plusieurs mentions et que des tweets utilisant des mentions différentes seraient attribués à tort à des événements différents.Pour surmonter ces limitations, nous proposons un modèle de mélange bayésien non paramétrique avec des intégrations de mots pour l'extraction d'événements, dans lequel le nombre d'événements peut être déduit automatiquement et la question des variations lexicales pour la même entité nommée peut être traitée correctement.Notre modèle a été évalué sur trois ensembles de données avec des tailles allant de 2 499 à plus de 60 millions de tweets.Les résultats expérimentaux montrent que notre modèle surpasse l'approche de base sur tous les ensembles de données en 5-8 % en F-mesure.Translated Description (Spanish)
Para extraer representaciones estructuradas de eventos de interés periodístico de Twitter, los modelos no supervisados generalmente asumen que los tweets que involucran las mismas entidades nombradas y se expresan con palabras similares probablemente pertenezcan al mismo evento. Por lo tanto, agrupan los tweets en grupos en función de los patrones de concurrencia de las entidades nombradas y las palabras clave tópicas. Sin embargo, hay dos limitaciones principales. En primer lugar, requieren que se conozca de antemano el número de eventos, lo que no es realista en las aplicaciones prácticas. En segundo lugar, no reconocen que la misma entidad nombrada podría ser referida por múltiples menciones y los tweets que usan diferentes menciones se asignarían erróneamente a diferentes eventos. Para superar estas limitaciones, proponemos un modelo de mezcla bayesiana no paramétrica con incrustaciones de palabras para la extracción de eventos, en el que el número de eventos se puede inferir automáticamente y el problema de las variaciones léxicas para la misma entidad nombrada se puede tratar adecuadamente. Nuestro modelo se ha evaluado en tres conjuntos de datos con tamaños que oscilan entre 2,499 y más de 60 millones de tweets. Los resultados experimentales muestran que nuestro modelo supera el enfoque de referencia en todos los conjuntos de datos por 5-8% en la medida F.Files
E17-1076.pdf.pdf
Files
(226 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- استخراج الحدث من تويتر باستخدام نموذج خليط بايزي غير باراميتري مع تضمين الكلمات
- Translated title (French)
- Extraction d'événements à partir de Twitter à l'aide d'un modèle de mélange bayésien non paramétrique avec des intégrations de mots
- Translated title (Spanish)
- Extracción de eventos de Twitter utilizando un modelo de mezcla bayesiana no paramétrico con incrustaciones de palabras
Identifiers
- Other
- https://openalex.org/W2730939662
- DOI
- 10.18653/v1/e17-1076
References
- https://openalex.org/W1041597453
- https://openalex.org/W135600699
- https://openalex.org/W1507094738
- https://openalex.org/W1549229937
- https://openalex.org/W1591708989
- https://openalex.org/W1892832513
- https://openalex.org/W1998032016
- https://openalex.org/W2017422158
- https://openalex.org/W2069557380
- https://openalex.org/W2080972498
- https://openalex.org/W2118036030
- https://openalex.org/W2118930549
- https://openalex.org/W2123661878
- https://openalex.org/W2152336115
- https://openalex.org/W2153164668
- https://openalex.org/W2157765050
- https://openalex.org/W2158899491
- https://openalex.org/W2185615741
- https://openalex.org/W2405060708
- https://openalex.org/W2406549345
- https://openalex.org/W263845233
- https://openalex.org/W823001507
- https://openalex.org/W856329201