Thai Spelling Correction and Word Normalization on Social Text Using a Two-Stage Pipeline With Neural Contextual Attention
- 1. Chulalongkorn University
- 2. Silpakorn University
Description
Text correction systems (e.g., spell checkers) have been used to improve the quality of computerized text by detecting and correcting errors. However, the task of performing spelling correction and word normalization (text correction) for Thai social media text has remained largely unexplored. In this paper, we investigated how current text correction systems perform on correcting errors and word variances in Thai social texts and propose a method designed for this task. We have found that currently available Thai text correction systems are insufficiently robust for correcting spelling errors and word variances, while the text correctors designed for English grammatical error correction suffer from overcorrections (text rewrites). Thus, we proposed a neural-based text corrector with a two-stage structure to alleviate issues of overcorrections while exploiting the benefits of a neural Seq2Seq corrector. Our method consists of a neural-based error detector and a Seq2Seq neural error corrector with contextual attention. This novel architecture allows the Seq2Seq network to produce corrections based on both the erroneous text and its context without the need for an end-to-end structure. Our method outperformed all the other evaluated text correction systems. When compared to the second-best result (copy-augmented transformer), our method further reduced the word error rate (WER) from 2.51% to 2.07%, improved the generalized language evaluation understanding (GLEU) score from 0.9409 to 0.9502 on the Thai text correction task, and improved the GLEU score from 0.7409 to 0.7539 on the English spelling correction task.
Translated Descriptions
Translated Description (Arabic)
تم استخدام أنظمة تصحيح النص (على سبيل المثال، المدققون الإملائيون) لتحسين جودة النص المحوسب من خلال اكتشاف الأخطاء وتصحيحها. ومع ذلك، فإن مهمة إجراء تصحيح الإملاء وتطبيع الكلمات (تصحيح النص) لنص وسائل التواصل الاجتماعي التايلاندية ظلت غير مستكشفة إلى حد كبير. في هذه الورقة، بحثنا في كيفية أداء أنظمة تصحيح النص الحالية في تصحيح الأخطاء وتباين الكلمات في النصوص الاجتماعية التايلاندية واقتراح طريقة مصممة لهذه المهمة. لقد وجدنا أن أنظمة تصحيح النص التايلاندية المتاحة حاليًا غير قوية بما يكفي لتصحيح الأخطاء الإملائية وتباينات الكلمات، في حين أن مصححات النص المصممة لتصحيح الأخطاء النحوية باللغة الإنجليزية تعاني من التصحيحات الزائدة (إعادة كتابة النص). وبالتالي، اقترحنا مصحح نص قائم على الأعصاب بهيكل من مرحلتين للتخفيف من مشكلات التصحيحات المفرطة مع استغلال فوائد مصحح Seq2Seq العصبي. تتكون طريقتنا من كاشف للأخطاء العصبية ومصحح للأخطاء العصبية Seq2Seq مع الانتباه السياقي. تسمح هذه البنية الجديدة لشبكة Seq2Seq بإنتاج تصحيحات بناءً على كل من النص الخاطئ وسياقه دون الحاجة إلى بنية شاملة. تفوقت طريقتنا على جميع أنظمة تصحيح النص الأخرى التي تم تقييمها. عند مقارنتها بثاني أفضل نتيجة (محول معزز بالنسخ)، خفضت طريقتنا معدل خطأ الكلمات (WER) من 2.51 ٪ إلى 2.07 ٪، وحسنت درجة فهم تقييم اللغة المعمم (GLEU) من 0.9409 إلى 0.9502 في مهمة تصحيح النص التايلاندي، وحسنت درجة GLEU من 0.7409 إلى 0.7539 في مهمة تصحيح الإملاء باللغة الإنجليزية.Translated Description (French)
Des systèmes de correction de texte (par exemple, des vérificateurs orthographiques) ont été utilisés pour améliorer la qualité du texte informatisé en détectant et en corrigeant les erreurs. Cependant, la tâche d'effectuer une correction orthographique et une normalisation des mots (correction de texte) pour le texte thaïlandais sur les réseaux sociaux est restée largement inexplorée. Dans cet article, nous avons étudié comment les systèmes de correction de texte actuels corrigent les erreurs et les variances de mots dans les textes sociaux thaïlandais et proposons une méthode conçue pour cette tâche. Nous avons constaté que les systèmes de correction de texte thaïlandais actuellement disponibles ne sont pas suffisamment robustes pour corriger les fautes d'orthographe et les variances de mots, tandis que les correcteurs de texte conçus pour la correction d'erreurs grammaticales en anglais souffrent de surcorrections (réécritures de texte). Ainsi, nous avons proposé un correcteur de texte à base de neurones avec une structure en deux étapes pour atténuer les problèmes de surcorrections tout en exploitant les avantages d'un correcteur neuronal Seq2Seq. Notre méthode consiste en un détecteur d'erreur neuronal et un correcteur d'erreur neuronal Seq2Seq avec une attention contextuelle. Cette nouvelle architecture permet au réseau Seq2Seq de produire des corrections basées à la fois sur le texte erroné et son contexte sans avoir besoin d'une structure de bout en bout. Notre méthode a surpassé tous les autres systèmes de correction de texte évalués. Par rapport au deuxième meilleur résultat (transformateur augmenté de copie), notre méthode a encore réduit le taux d'erreur de mot (Wer) de 2,51 % à 2,07 %, amélioré le score de compréhension de l'évaluation linguistique généralisée (GLEU) de 0,9409 à 0,9502 sur la tâche de correction de texte thaïlandaise, et amélioré le score GLEU de 0,7409 à 0,7539 sur la tâche de correction orthographique anglaise.Translated Description (Spanish)
Se han utilizado sistemas de corrección de texto (por ejemplo, correctores ortográficos) para mejorar la calidad del texto computarizado mediante la detección y corrección de errores. Sin embargo, la tarea de realizar la corrección ortográfica y la normalización de palabras (corrección de texto) para el texto de las redes sociales tailandesas ha permanecido en gran medida sin explorar. En este artículo, investigamos cómo funcionan los sistemas de corrección de texto actuales para corregir errores y variaciones de palabras en los textos sociales tailandeses y proponemos un método diseñado para esta tarea. Hemos encontrado que los sistemas de corrección de texto tailandeses actualmente disponibles no son lo suficientemente robustos para corregir errores ortográficos y variaciones de palabras, mientras que los correctores de texto diseñados para la corrección de errores gramaticales en inglés sufren de sobrecorrecciones (reescrituras de texto). Por lo tanto, propusimos un corrector de texto basado en neuronas con una estructura de dos etapas para aliviar los problemas de sobrecorrecciones mientras se explotan los beneficios de un corrector neuronal Seq2Seq. Nuestro método consiste en un detector de errores neuronales y un corrector de errores neuronales Seq2Seq con atención contextual. Esta novedosa arquitectura permite que la red Seq2Seq produzca correcciones basadas tanto en el texto erróneo como en su contexto sin necesidad de una estructura de extremo a extremo. Nuestro método superó a todos los demás sistemas de corrección de texto evaluados. En comparación con el segundo mejor resultado (transformador de copia aumentada), nuestro método redujo aún más la tasa de error de palabras (WER) del 2,51% al 2,07%, mejoró la puntuación de comprensión de evaluación lingüística generalizada (GLEU) de 0,9409 a 0,9502 en la tarea de corrección de texto tailandés y mejoró la puntuación de GLEU de 0,7409 a 0,7539 en la tarea de corrección ortográfica en inglés.Files
09145483.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:67b15b77acf787917092552eea314465
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تصحيح الإملاء التايلاندي وتطبيع الكلمات على النص الاجتماعي باستخدام خط أنابيب من مرحلتين مع الانتباه السياقي العصبي
- Translated title (French)
- Correction orthographique thaïlandaise et normalisation des mots sur le texte social à l'aide d'un pipeline en deux étapes avec une attention contextuelle neuronale
- Translated title (Spanish)
- Corrección ortográfica tailandesa y normalización de palabras en textos sociales mediante un proceso de dos etapas con atención contextual neuronal
Identifiers
- Other
- https://openalex.org/W3043962629
- DOI
- 10.1109/access.2020.3010828
References
- https://openalex.org/W1841396261
- https://openalex.org/W2064675550
- https://openalex.org/W2090977083
- https://openalex.org/W2098297786
- https://openalex.org/W2101105183
- https://openalex.org/W2130026255
- https://openalex.org/W2131774270
- https://openalex.org/W2139188905
- https://openalex.org/W2140372282
- https://openalex.org/W2142677308
- https://openalex.org/W2170527467
- https://openalex.org/W2251927615
- https://openalex.org/W2397944984
- https://openalex.org/W2515384205
- https://openalex.org/W2551396370
- https://openalex.org/W2785047343
- https://openalex.org/W2890230387
- https://openalex.org/W2936329694
- https://openalex.org/W2963250244
- https://openalex.org/W2963691697
- https://openalex.org/W2963881719
- https://openalex.org/W2963975242
- https://openalex.org/W2964082031
- https://openalex.org/W2964121744
- https://openalex.org/W2964187553
- https://openalex.org/W2970521905
- https://openalex.org/W2974377357
- https://openalex.org/W3009009611
- https://openalex.org/W4214618470
- https://openalex.org/W4297734170