Improving Grammatical Error Correction with Data Augmentation by Editing Latent Representation
Description
The incorporation of data augmentation method in grammatical error correction task has attracted much attention.However, existing data augmentation methods mainly apply noise to tokens, which leads to the lack of diversity of generated errors.In view of this, we propose a new data augmentation method that can apply noise to the latent representation of a sentence.By editing the latent representations of grammatical sentences, we can generate synthetic samples with various error types.Combining with some pre-defined rules, our method can greatly improve the performance and robustness of existing grammatical error correction models.We evaluate our method on public benchmarks of GEC task and it achieves the state-of-the-art performance on CoNLL-2014 and FCE benchmarks.
Translated Descriptions
Translated Description (Arabic)
لقد جذب دمج طريقة زيادة البيانات في مهمة تصحيح الأخطاء النحوية الكثير من الاهتمام. ومع ذلك، فإن طرق زيادة البيانات الحالية تطبق بشكل أساسي الضوضاء على الرموز المميزة، مما يؤدي إلى عدم تنوع الأخطاء الناتجة. في ضوء ذلك، نقترح طريقة جديدة لزيادة البيانات يمكن أن تطبق الضوضاء على التمثيل الكامن للجملة. من خلال تحرير التمثيلات الكامنة للجمل النحوية، يمكننا إنشاء عينات اصطناعية بأنواع مختلفة من الأخطاء. بالجمع مع بعض القواعد المحددة مسبقًا، يمكن لطريقتنا أن تحسن بشكل كبير أداء ومتانة نماذج تصحيح الأخطاء النحوية الحالية. نقيم طريقتنا في المعايير العامة لمهمة GEC وتحقق الأداء المتطور على CoNLL -2014 ومعايير FCE.Translated Description (French)
L'incorporation de la méthode d'augmentation des données dans la tâche de correction d'erreurs grammaticales a attiré beaucoup d'attention. Cependant, les méthodes d'augmentation des données existantes appliquent principalement du bruit aux jetons, ce qui entraîne le manque de diversité des erreurs générées. Dans cette optique, nous proposons une nouvelle méthode d'augmentation des données qui peut appliquer du bruit à la représentation latente d'une phrase. En éditant les représentations latentes des phrases grammaticales, nous pouvons générer des échantillons synthétiques avec divers types d'erreurs. En combinant avec certaines règles prédéfinies, notre méthode peut améliorer considérablement les performances et la robustesse des modèles de correction d'erreurs grammaticales existants. Nous évaluons notre méthode sur les repères publics de la tâche GEC et elle atteint les performances de pointe sur les repères CoNLL-2014 et FCE.Translated Description (Spanish)
La incorporación del método de aumento de datos en la tarea de corrección de errores gramaticales ha atraído mucha atención. Sin embargo, los métodos de aumento de datos existentes aplican principalmente ruido a los tokens, lo que conduce a la falta de diversidad de errores generados. En vista de esto, proponemos un nuevo método de aumento de datos que puede aplicar ruido a la representación latente de una oración. Al editar las representaciones latentes de oraciones gramaticales, podemos generar muestras sintéticas con varios tipos de error. Combinando con algunas reglas predefinidas, nuestro método puede mejorar en gran medida el rendimiento y la solidez de los modelos de corrección de errores gramaticales existentes. Evaluamos nuestro método en los puntos de referencia públicos de la tarea GEC y logra el rendimiento de vanguardia en los puntos de referencia CoNLL-2014 y FCE.Files
2020.coling-main.200.pdf.pdf
Files
(226 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:5360980bad11bf9723da89687501effc
|
226 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تحسين تصحيح الأخطاء النحوية مع زيادة البيانات عن طريق تحرير التمثيل الكامن
- Translated title (French)
- Amélioration de la correction des erreurs grammaticales avec l'augmentation des données en éditant la représentation latente
- Translated title (Spanish)
- Mejora de la corrección de errores gramaticales con el aumento de datos mediante la edición de la representación latente
Identifiers
- Other
- https://openalex.org/W3116864188
- DOI
- 10.18653/v1/2020.coling-main.200
References
- https://openalex.org/W1521626219
- https://openalex.org/W1700986498
- https://openalex.org/W1832693441
- https://openalex.org/W2051889879
- https://openalex.org/W2095705004
- https://openalex.org/W2098297786
- https://openalex.org/W2099174312
- https://openalex.org/W2119633152
- https://openalex.org/W2120874923
- https://openalex.org/W2124725212
- https://openalex.org/W2125616599
- https://openalex.org/W2143612262
- https://openalex.org/W2153013403
- https://openalex.org/W2159086733
- https://openalex.org/W2170527467
- https://openalex.org/W2413794162
- https://openalex.org/W2470324779
- https://openalex.org/W2740433069
- https://openalex.org/W2741494657
- https://openalex.org/W2759575900
- https://openalex.org/W2803237843
- https://openalex.org/W2810035278
- https://openalex.org/W2899310090
- https://openalex.org/W2933138175
- https://openalex.org/W2948335087
- https://openalex.org/W2962784628
- https://openalex.org/W2962801832
- https://openalex.org/W2963207607
- https://openalex.org/W2963216553
- https://openalex.org/W2963341956
- https://openalex.org/W2963403868
- https://openalex.org/W2963655793
- https://openalex.org/W2963881719
- https://openalex.org/W2964082031
- https://openalex.org/W2964121744
- https://openalex.org/W2964187553
- https://openalex.org/W2964258094
- https://openalex.org/W2970076840
- https://openalex.org/W2970521905
- https://openalex.org/W2970868759
- https://openalex.org/W3035010485
- https://openalex.org/W3037162118