Neural Topic Modeling with Cycle-Consistent Adversarial Training
- 1. Ministry of Education of the People's Republic of China
- 2. Southeast University
Description
Advances on deep generative models have attracted significant research interest in neural topic modeling.The recently proposed Adversarial-neural Topic Model models topics with an adversarially trained generator network and employs Dirichlet prior to capture the semantic patterns in latent topics.It is effective in discovering coherent topics but unable to infer topic distributions for given documents or utilize available document labels.To overcome such limitations, we propose Topic Modeling with Cycle-consistent Adversarial Training (ToMCAT) and its supervised version sToMCAT.ToMCAT employs a generator network to interpret topics and an encoder network to infer document topics.Adversarial training and cycle-consistent constraints are used to encourage the generator and the encoder to produce realistic samples that coordinate with each other.sToMCAT extends ToM-CAT by incorporating document labels into the topic modeling process to help discover more coherent topics.The effectiveness of the proposed models is evaluated on unsupervised/supervised topic modeling and text classification.The experimental results show that our models can produce both coherent and informative topics, outperforming a number of competitive baselines.
Translated Descriptions
Translated Description (Arabic)
جذبت التطورات في النماذج التوليدية العميقة اهتمامًا بحثيًا كبيرًا في نمذجة الموضوعات العصبية .نماذج نماذج الموضوعات العصبية والعدائية المقترحة مؤخرًا مع شبكة مولدات مدربة على الخصومة وتوظف ديريتشليت قبل التقاط الأنماط الدلالية في الموضوعات الكامنة .وهو فعال في اكتشاف الموضوعات المتماسكة ولكنه غير قادر على استنتاج توزيعات الموضوعات لوثائق معينة أو استخدام تسميات المستندات المتاحة. للتغلب على هذه القيود، نقترح نمذجة الموضوعات مع التدريب العدائي المتسق مع الدورة (ToMCAT) ونسخته الخاضعة للإشراف sToMCAT .توظف ToMCAT شبكة مولدات لتفسير الموضوعات وشبكة مشفر لاستنتاج موضوعات المستندات .يتم استخدام التدريب العكسي والقيود المتسقة مع الدورة لتشجيع المولد والمشفّر على إنتاج عينات واقعية تنسق مع بعضها البعض. sToMCAT يمتد إلى M - CAT من خلال دمج تسميات المستندات في عملية النمذجة للمساعدة في اكتشاف موضوعات أكثر تماسكًا. يتم تقييم فعالية النماذج المقترحة على موضوعات غير خاضعة للرقابة/نموذج النص وتصنيف النتائج. يمكن أن تظهر نماذجنا نماذج واقعية يمكن أن تنتج كلا من الموضوعات المتماسكة والأداء التنافسي.Translated Description (French)
Les avancées sur les modèles génératifs profonds ont suscité un intérêt de recherche important dans la modélisation de sujets neuronaux.Le modèle de sujet antagoniste-naturel récemment proposé modélise des sujets avec un réseau de générateurs formés de manière contradictoire et emploie Dirichlet avant de capturer les modèles sémantiques dans des sujets latents.Il est efficace pour découvrir des sujets cohérents mais incapable d'inférer des distributions de sujets pour des documents donnés ou d'utiliser des étiquettes de documents disponibles.Pour surmonter ces limitations, nous proposons la modélisation de sujets avec une formation antagoniste cohérente avec le cycle (ToMCAT) et sa version supervisée sToMCAT.ToMCAT utilise un réseau de générateurs pour interpréter des sujets et un réseau d'encodeurs pour inférer des sujets de document.La formation inversaire et les contraintes cohérentes avec le cycle sont utilisées pour encourager le générateur et l'encodeur à produire des échantillons réalistes qui se coordonnent les uns avec les autres.sToMCAT étend ToM-CAT en incorporant des étiquettes de documents dans le processus de modélisation de sujets pour aider à découvrir des sujets plus cohérents.L' efficacité des modèles proposés est évaluée sur la modélisation de sujets non supervisée/supervisée et la classification de textes.Les résultats expérimentaux montrent que nos modèles peuvent produire des sujets cohérents et informatifs, surpassant un certain nombre de lignes de base concurrentielles.Translated Description (Spanish)
Los avances en los modelos generativos profundos han atraído un interés significativo de investigación en el modelado de temas neuronales. Los modelos de temas adversarios-neurales recientemente propuestos son temas con una red de generadores entrenados de manera adversaria y emplean Dirichlet antes de capturar los patrones semánticos en temas latentes. Es efectivo para descubrir temas coherentes pero incapaz de inferir distribuciones de temas para documentos dados o utilizar etiquetas de documentos disponibles. Para superar tales limitaciones, proponemos el modelado de temas con entrenamiento adversario consistente con el ciclo (ToMCAT) y su versión supervisada sToMCAT. ToMCAT emplea una red de generadores para interpretar temas y una red de codificadores para inferir temas de documentos. El entrenamiento adversario y las restricciones consistentes con el ciclo se utilizan para alentar al generador y al codificador a producir muestras realistas que se coordinen entre sí. sToMCAT extiende ToM-CAT al incorporar etiquetas de documentos en el proceso de modelado de temas para ayudar a descubrir temas más coherentes. La efectividad de los modelos propuestos se evalúa en el modelado de temas no supervisados/supervisados y la clasificación de textos. Los resultados experimentales muestran que nuestros modelos pueden producir temas coherentes e informativos, superando un número de líneas base competitivas.Files
2020.emnlp-main.725.pdf.pdf
Files
(226 Bytes)
Name | Size | Download all |
---|---|---|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- نمذجة الموضوع العصبي مع التدريب العدائي المتسق مع الدورة
- Translated title (French)
- Modélisation de sujets neuronaux avec formation contradictoire cohérente avec le cycle
- Translated title (Spanish)
- Modelado de temas neuronales con entrenamiento contradictorio consistente con el ciclo
Identifiers
- Other
- https://openalex.org/W3105792887
- DOI
- 10.18653/v1/2020.emnlp-main.725
References
- https://openalex.org/W1861517257
- https://openalex.org/W1880262756
- https://openalex.org/W2001082470
- https://openalex.org/W2038043464
- https://openalex.org/W2061873838
- https://openalex.org/W2108420397
- https://openalex.org/W2962793481
- https://openalex.org/W2962976808
- https://openalex.org/W2968713397
- https://openalex.org/W2970278082
- https://openalex.org/W3035332461
- https://openalex.org/W3099531031