Published January 1, 2019 | Version v1
Publication Open

UESTS: An Unsupervised Ensemble Semantic Textual Similarity Method

  • 1. Fayoum University
  • 2. Laboratoire d'Informatique de Paris-Nord
  • 3. Cairo University

Description

Semantic textual similarity (STS) is the task of assessing the degree of similarity between two texts in terms of meaning.Several approaches have been proposed in the literature to determine the semantic similarity between texts.The most promising work recently presented in the literature was supervised approaches.Unsupervised STS approaches are characterized by the fact that they do not require learning data, but they still suffer from some limitations.Word alignment has been widely used in the state-ofthe-art approaches.From this point, this paper has three contributions.First, a new synset-oriented word aligner is presented, which relies on a huge multilingual semantic network named BabelNet.Second, three unsupervised STS approaches are proposed: string kernel-based (SK), alignment-based (AL), and weighted alignment-based (WAL).Third, some limitations of the state-of-the-art approaches are tackled, and different similarity methods are demonstrated to be complementary with each other by proposing an unsupervised ensemble STS (UESTS) approach.The UESTS incorporates the merits of four similarity measures: proposed alignment-based, surface-based, corpus-based, and enhanced edit distance.The experimental results proved that the participation of the proposed aligner in STS is effective.Over all the evaluation data sets, the proposed UESTS outperforms the state-of-the-art unsupervised approaches, which is a promising result.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

التشابه النصي الدلالي (STS) هو مهمة تقييم درجة التشابه بين نصين من حيث المعنى. تم اقتراح العديد من المناهج في الأدبيات لتحديد التشابه الدلالي بين النصوص. كان العمل الواعد الذي تم تقديمه مؤخرًا في الأدبيات هو المناهج الخاضعة للإشراف. تتميز مناهج STS غير الخاضعة للإشراف بحقيقة أنها لا تتطلب بيانات تعليمية، لكنها لا تزال تعاني من بعض القيود. تم استخدام محاذاة الكلمات على نطاق واسع في مناهج الدولة الحديثة. من هذه النقطة، تحتوي هذه الورقة على ثلاث مساهمات. أولاً، يتم تقديم محاذاة كلمات جديدة موجهة نحو المزامنة، والتي تعتمد على شبكة دلالية ضخمة متعددة اللغات تسمى BabelNet. ثانيًا، يتم اقتراح ثلاثة مناهج STS غير خاضعة للإشراف: قائمة على نواة السلسلة (SK)، قائمة على المحاذاة (AL)، قائمة على المحاذاة المرجحة (WAL). ثالثًا، يتم التعامل مع بعض القيود المفروضة على الأساليب الحديثة، ويتم إثبات أن طرق التشابه المختلفة مكملة لبعضها البعض من خلال اقتراح نهج STS غير خاضع للإشراف (UESTS). يتضمن UESTS مزايا أربعة مقاييس للتشابه: مسافة التحرير المقترحة القائمة على المحاذاة، القائمة على السطح، القائمة على الجسم، والمعززة. أثبتت النتائج التجريبية أن مشاركة المحاذاة المقترحة في STS فعال. على جميع مجموعات بيانات التقييم، يتفوق UESTS المقترح على أحدث الأساليب غير الخاضعة للإشراف، وهي نتيجة واعدة.

Translated Description (French)

La similarité textuelle sémantique (STS) est la tâche d'évaluer le degré de similitude entre deux textes en termes de signification. Plusieurs approches ont été proposées dans la littérature pour déterminer la similitude sémantique entre les textes. Le travail le plus prometteur récemment présenté dans la littérature était les approches supervisées. Les approches STS non supervisées sont caractérisées par le fait qu'elles ne nécessitent pas de données d'apprentissage, mais elles souffrent toujours de certaines limitations. L'alignement des mots a été largement utilisé dans les approches state-ofthe-art. De ce point, cet article a trois contributions. Tout d'abord, un nouvel aligneur de mots orienté synset est présenté, qui s'appuie sur un énorme réseau sémantique multilingue nommé BabelNet.Deuxièmement, trois approches STS non supervisées sont proposées : une approche basée sur le noyau de chaîne (SK), une approche basée sur l'alignement (AL) et une approche basée sur l'alignement pondéré (WAL) .Troisièmement, certaines limites des approches de pointe sont abordées et différentes méthodes de similarité sont démontrées comme étant complémentaires les unes des autres en proposant une approche STS d'ensemble non supervisée (UESTS) .L' UESTS intègre les mérites de quatre mesures de similarité : une approche basée sur l'alignement, une approche basée sur la surface, une approche basée sur le corpus et une distance d'édition améliorée.Les résultats expérimentaux ont prouvé que la participation de l'aligneur proposé dans STS est efficace. Sur tous les ensembles de données d'évaluation, l'UESTS proposé surpasse les approches non supervisées de pointe, ce qui est un résultat prometteur.

Translated Description (Spanish)

La similitud textual semántica (STS) es la tarea de evaluar el grado de similitud entre dos textos en términos de significado. Se han propuesto varios enfoques en la literatura para determinar la similitud semántica entre los textos. El trabajo más prometedor presentado recientemente en la literatura fueron los enfoques supervisados. Los enfoques STS no supervisados se caracterizan por el hecho de que no requieren datos de aprendizaje, pero aún sufren algunas limitaciones. La alineación de palabras se ha utilizado ampliamente en los enfoques de última generación. A partir de este punto, este artículo tiene tres contribuciones. En primer lugar, se presenta un nuevo alineador de palabras orientado a synset. que se basa en una enorme red semántica multilingüe llamada BabelNet. En segundo lugar, se proponen tres enfoques STS no supervisados: basados en kernel de cadena (SK), basados en alineación (AL) y basados en alineación ponderada (WAL). En tercer lugar, se abordan algunas limitaciones de los enfoques del estado de la técnica y se demuestra que diferentes métodos de similitud son complementarios entre sí al proponer un enfoque STS de conjunto no supervisado (UESTS). El UESTS incorpora los méritos de cuatro medidas de similitud: distancia de edición propuesta basada en alineación, basada en superficie, basada en corpus y mejorada. Los resultados experimentales demostraron que la participación del alineador propuesto en STS es efectivo. Sobre todos los conjuntos de datos de evaluación, el UESTS propuesto supera los enfoques no supervisados de última generación, lo que es un resultado prometedor.

Files

08746255.pdf.pdf

Files (245 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:0b49de604efd70fb760d8d531ce6e023
245 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
UESTS: طريقة تشابه نصي دلالي غير خاضعة للإشراف
Translated title (French)
UESTS : Une méthode de similarité textuelle sémantique d'ensemble non supervisée
Translated title (Spanish)
UESTS: un método de similitud textual semántica de conjunto no supervisado

Identifiers

Other
https://openalex.org/W2953411641
DOI
10.1109/access.2019.2925006

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1171471126
  • https://openalex.org/W1510073064
  • https://openalex.org/W1647729745
  • https://openalex.org/W1748393397
  • https://openalex.org/W2000706889
  • https://openalex.org/W2098162425
  • https://openalex.org/W2100935296
  • https://openalex.org/W2101287987
  • https://openalex.org/W2102153514
  • https://openalex.org/W2111251160
  • https://openalex.org/W2117805756
  • https://openalex.org/W2120699290
  • https://openalex.org/W2120814856
  • https://openalex.org/W2121184547
  • https://openalex.org/W2123442489
  • https://openalex.org/W2126400076
  • https://openalex.org/W2131151781
  • https://openalex.org/W2133458109
  • https://openalex.org/W2136480620
  • https://openalex.org/W2141255854
  • https://openalex.org/W2142120379
  • https://openalex.org/W2152180407
  • https://openalex.org/W2162130683
  • https://openalex.org/W2164413279
  • https://openalex.org/W2165979181
  • https://openalex.org/W2169647667
  • https://openalex.org/W2185606683
  • https://openalex.org/W2250418535
  • https://openalex.org/W2250825496
  • https://openalex.org/W2251044566
  • https://openalex.org/W2251291469
  • https://openalex.org/W2251642297
  • https://openalex.org/W2251797829
  • https://openalex.org/W2251803266
  • https://openalex.org/W2251861449
  • https://openalex.org/W2461338233
  • https://openalex.org/W2462305634
  • https://openalex.org/W2464272265
  • https://openalex.org/W2469213564
  • https://openalex.org/W2534712034
  • https://openalex.org/W2585620645
  • https://openalex.org/W2751762827
  • https://openalex.org/W2752289368
  • https://openalex.org/W2753580119
  • https://openalex.org/W2753924560
  • https://openalex.org/W2764289230
  • https://openalex.org/W2771521924
  • https://openalex.org/W2963149412
  • https://openalex.org/W2963899155
  • https://openalex.org/W2997591727
  • https://openalex.org/W3104033643
  • https://openalex.org/W4321001938