Enhancing Neural Topic Model with Multi-Level Supervisions from Seed Words
Creators
- 1. Peking University
- 2. Tsinghua University
- 3. Chongqing University
Description
Efforts have been made to apply topic seed words to improve the topic interpretability of topic models.However, due to the semantic diversity of natural language, supervisions from seed words could be ambiguous, making it hard to be incorporated into the current neural topic models.In this paper, we propose SeededNTM, a neural topic model enhanced with supervisions from seed words on both word and document levels.We introduce a context-dependency assumption to alleviate the ambiguities with context document information, and an auto-adaptation mechanism to automatically balance between multi-level information.Moreover, an intra-sample consistency regularizer is proposed to deal with noisy supervisions via encouraging perturbation and semantic consistency.Extensive experiments on multiple datasets show that SeededNTM can derive semantically meaningful topics and outperforms the state-of-the-art seeded topic models in terms of topic quality and classification accuracy.
Translated Descriptions
Translated Description (Arabic)
بُذلت جهود لتطبيق الكلمات الأولية للموضوع لتحسين قابلية تفسير الموضوع لنماذج الموضوع. ومع ذلك، نظرًا للتنوع الدلالي للغة الطبيعية، يمكن أن تكون الإشراف من الكلمات الأولية غامضة، مما يجعل من الصعب دمجها في نماذج الموضوع العصبي الحالية. في هذه الورقة، نقترح SeededNTM، وهو نموذج موضوع عصبي معزز بالإشراف من الكلمات الأولية على كل من مستويي الكلمات والمستندات. نقدم افتراض الاعتماد على السياق للتخفيف من الغموض مع معلومات وثيقة السياق، وآلية التكيف التلقائي لتحقيق التوازن تلقائيًا بين المعلومات متعددة المستويات. علاوة على ذلك، يُقترح منظم الاتساق داخل العينة للتعامل مع الإشراف الصاخب من خلال تشجيع الاضطراب والاتساق الدلالي. تُظهر التجارب المكثفة على مجموعات البيانات المتعددة أن SeededNTM يمكن أن تستمد مواضيع ذات مغزى من الناحية الدلالية وتتفوق على أحدث نماذج الموضوعات المصنفة من حيث الجودة والدقة.Translated Description (French)
Cependant, en raison de la diversité sémantique du langage naturel, les supervisions à partir des mots de départ pourraient être ambiguës, ce qui rend difficile leur intégration dans les modèles de sujets neuronaux actuels. Dans cet article, nous proposons SeededNTM, un modèle de sujet neuronal amélioré par des supervisions à partir de mots de départ à la fois au niveau des mots et des documents. Nous introduisons une hypothèse de dépendance au contexte pour atténuer les ambiguïtés avec les informations du document contextuel et un mécanisme d'auto-adaptation pour équilibrer automatiquement les informations à plusieurs niveaux. De plus, un régulariseur de cohérence intra-échantillon est proposé pour traiter les supervisions bruyantes en encourageant la perturbation et la cohérence sémantique. Des expériences approfondies sur plusieurs ensembles de données montrent que SeededNTM peut déduire des sujets sémantiquement significatifs et surpasse les modèles de sujets de pointe en termes de qualité du sujet et de précision de la classification.Translated Description (Spanish)
Se han hecho esfuerzos para aplicar palabras semilla temáticas para mejorar la interpretabilidad temática de los modelos temáticos. Sin embargo, debido a la diversidad semántica del lenguaje natural, las supervisiones de las palabras semilla podrían ser ambiguas, lo que dificulta su incorporación a los modelos temáticos neuronales actuales. En este documento, proponemos SeededNTM, un modelo temático neuronal mejorado con supervisiones de palabras semilla tanto a nivel de palabra como de documento. Introducimos una suposición de dependencia del contexto para aliviar las ambigüedades con información del documento de contexto y un mecanismo de autoadaptación para equilibrar automáticamente la información multinivel. Además, se propone un regularizador de consistencia intra-muestra para hacer frente a las supervisiones ruidosas mediante el fomento de la perturbación y la consistencia semántica. Los experimentos exhaustivos en múltiples conjuntos de datos muestran que SeededNTM puede derivar temas semánticamente significativos y superar los modelos temáticos sembrados de última generación en términos de calidad temática y precisión de clasificación.Files
2023.findings-acl.845.pdf.pdf
Files
(881.3 kB)
Name | Size | Download all |
---|---|---|
md5:8b906e475c31bf52c4d8fea8943feb09
|
881.3 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تعزيز نموذج الموضوع العصبي مع الإشراف متعدد المستويات من الكلمات البذرية
- Translated title (French)
- Amélioration du modèle de sujet neuronal avec des supervisions à plusieurs niveaux à partir de Seed Words
- Translated title (Spanish)
- Mejora del modelo de temas neuronales con supervisiones de varios niveles a partir de palabras clave
Identifiers
- Other
- https://openalex.org/W4385571952
- DOI
- 10.18653/v1/2023.findings-acl.845