Learning to Rank Semantic Coherence for Topic Segmentation
- 1. Peking University
- 2. South China Institute of Collaborative Innovation
- 3. Baidu (China)
Description
Topic segmentation plays an important role for discourse parsing and information retrieval.Due to the absence of training data, previous work mainly adopts unsupervised methods to rank semantic coherence between paragraphs for topic segmentation.In this paper, we present an intuitive and simple idea to automatically create a "quasi" training dataset, which includes a large amount of text pairs from the same or different documents with different semantic coherence.With the training corpus, we design a symmetric CNN neural network to model text pairs and rank the semantic coherence within the learning to rank framework.Experiments show that our algorithm is able to achieve competitive performance over strong baselines on several real-world datasets.
Translated Descriptions
Translated Description (Arabic)
يلعب تجزئة الموضوع دورًا مهمًا في تحليل الخطاب واسترجاع المعلومات. نظرًا لغياب بيانات التدريب، يعتمد العمل السابق بشكل أساسي طرقًا غير خاضعة للإشراف لتصنيف التماسك الدلالي بين فقرات تجزئة الموضوع. في هذه الورقة، نقدم فكرة بديهية وبسيطة لإنشاء مجموعة بيانات تدريبية "شبه" تلقائيًا، والتي تتضمن كمية كبيرة من أزواج النصوص من نفس المستندات أو مستندات مختلفة مع تماسك دلالي مختلف. مع مجموعة التدريب، نقوم بتصميم شبكة عصبية متماثلة من CNN لنمذجة أزواج النصوص وترتيب التماسك الدلالي داخل تعلم ترتيب الإطار. تظهر التجارب أن خوارزميتنا قادرة على تحقيق أداء تنافسي على خطوط الأساس القوية في العديد من مجموعات البيانات في العالم الحقيقي.Translated Description (French)
La segmentation des sujets joue un rôle important pour l'analyse du discours et la récupération d'informations. En raison de l'absence de données de formation, les travaux antérieurs adoptent principalement des méthodes non supervisées pour classer la cohérence sémantique entre les paragraphes pour la segmentation des sujets. Dans cet article, nous présentons une idée intuitive et simple pour créer automatiquement un « quasi » ensemble de données de formation, qui comprend une grande quantité de paires de texte provenant de documents identiques ou différents avec une cohérence sémantique différente. Avec le corpus de formation, nous concevons un réseau neuronal CNN symétrique pour modéliser les paires de texte et classer la cohérence sémantique dans le cadre d'apprentissage pour classer. Les expériences montrent que notre algorithme est capable d'atteindre des performances compétitives sur des bases solides sur plusieurs ensembles de données du monde réel.Translated Description (Spanish)
La segmentación de temas juega un papel importante para el análisis del discurso y la recuperación de información. Debido a la ausencia de datos de entrenamiento, el trabajo anterior adopta principalmente métodos no supervisados para clasificar la coherencia semántica entre párrafos para la segmentación de temas. En este documento, presentamos una idea intuitiva y simple para crear automáticamente un conjunto de datos de entrenamiento "cuasi", que incluye una gran cantidad de pares de texto del mismo o diferentes documentos con diferente coherencia semántica. Con el corpus de entrenamiento, diseñamos una red neuronal CNN simétrica para modelar pares de texto y clasificar la coherencia semántica dentro del marco de aprendizaje para clasificar. Los experimentos muestran que nuestro algoritmo es capaz de lograr un rendimiento competitivo sobre líneas de base sólidas en varios conjuntos de datos del mundo real.Files
D17-1139.pdf.pdf
Files
(226 Bytes)
Name | Size | Download all |
---|---|---|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التعلم لترتيب التماسك الدلالي لتقسيم الموضوع
- Translated title (French)
- Apprendre à classer la cohérence sémantique pour la segmentation des sujets
- Translated title (Spanish)
- Aprender a clasificar la coherencia semántica para la segmentación de temas
Identifiers
- Other
- https://openalex.org/W2758753219
- DOI
- 10.18653/v1/d17-1139
References
- https://openalex.org/W1557074680
- https://openalex.org/W1626945812
- https://openalex.org/W1828401780
- https://openalex.org/W1862888253
- https://openalex.org/W1966443646
- https://openalex.org/W1973435495
- https://openalex.org/W2027823133
- https://openalex.org/W2067002391
- https://openalex.org/W2101626488
- https://openalex.org/W2128709346
- https://openalex.org/W2128892113
- https://openalex.org/W2159083595
- https://openalex.org/W2167055684
- https://openalex.org/W2170738476
- https://openalex.org/W2211192759
- https://openalex.org/W2250539671
- https://openalex.org/W2397462379