Published January 1, 2017 | Version v1
Publication Open

CIC-FBK Approach to Native Language Identification

  • 1. Instituto Politécnico Nacional
  • 2. University of Trento

Description

We present the CIC-FBK system, which took part in the Native Language Identification (NLI) Shared Task 2017.Our approach combines features commonly used in previous NLI research, i.e., word n-grams, lemma n-grams, part-of-speech n-grams, and function words, with recently introduced character n-grams from misspelled words, and features that are novel in this task, such as typed character n-grams, and syntactic n-grams of words and of syntactic relation tags.We use log-entropy weighting scheme and perform classification using the Support Vector Machines (SVM) algorithm.Our system achieved 0.8808 macro-averaged F1-score and shared the 1 st rank in the NLI Shared Task 2017 scoring.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

نقدم نظام CIC - FBK، الذي شارك في المهمة المشتركة لتحديد اللغة الأصلية (NLI) لعام 2017. يجمع نهجنا بين الميزات الشائعة الاستخدام في أبحاث NLI السابقة، أي الكلمات n - grams و lemma n - grams و part - of - speech n - grams و function words، مع الأحرف n - grams التي تم تقديمها مؤخرًا من الكلمات التي بها أخطاء إملائية، والميزات الجديدة في هذه المهمة، مثل الأحرف n - grams المكتوبة، و n - grams النحوية للكلمات وعلامات العلاقة النحوية. نستخدم مخطط ترجيح السجل- الانتروبي ونجري التصنيف باستخدام خوارزمية آلات دعم المتجهات (SVM). حقق نظامنا 0.8808 درجة F1 في المتوسط الكلي وشارك المرتبة الأولى في تسجيل NLI Shared Task 2017.

Translated Description (French)

Nous présentons le système CIC-FBK, qui a participé à la tâche partagée d'identification des langues autochtones (NLI) 2017. Notre approche combine des fonctionnalités couramment utilisées dans les recherches NLI précédentes, à savoir les n-grammes de mots, les n-grammes de lemmes, les n-grammes de parties de la parole et les mots de fonction, avec des n-grammes de caractères récemment introduits à partir de mots mal orthographiés, et des fonctionnalités nouvelles dans cette tâche, telles que les n-grammes de caractères tapés, et les n-grammes syntaxiques de mots et de balises de relations syntaxiques. Nous utilisons le schéma de pondération log-entropie et effectuons la classification à l'aide de l'algorithme des machines à vecteurs de support (SVM). Notre système a obtenu 0,8808 score F1 macro-moyen et a partagé le 1 er rang dans la notation NLI Shared Task 2017.

Translated Description (Spanish)

Presentamos el sistema CIC-FBK, que participó en la tarea compartida de identificación de idiomas nativos (NLI) 2017. Nuestro enfoque combina características comúnmente utilizadas en investigaciones anteriores de NLI, es decir, n-gramas de palabras, n-gramas de lema, n-gramas de parte del habla y palabras de función, con n-gramas de caracteres introducidos recientemente a partir de palabras mal escritas, y características que son novedosas en esta tarea, como n-gramas de caracteres escritos y n-gramas sintácticos de palabras y de etiquetas de relación sintáctica. Utilizamos un esquema de ponderación de entropía de registro y realizamos la clasificación utilizando el algoritmo Support Vector Machines (SVM). Nuestro sistema logró una puntuación F1 macropromediada de 0.8808 y compartió el primer puesto en la puntuación NLI Shared Task 2017.

Files

W17-5042.pdf.pdf

Files (226 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5360980bad11bf9723da89687501effc
226 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نهج CIC - FBK لتحديد اللغة الأم
Translated title (French)
Approche CIC-FBK de l'identification des langues maternelles
Translated title (Spanish)
Enfoque CIC-FBK para la identificación de idiomas nativos

Identifiers

Other
https://openalex.org/W2760380084
DOI
10.18653/v1/w17-5042

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Mexico

References

  • https://openalex.org/W110450163
  • https://openalex.org/W1506915175
  • https://openalex.org/W1522263329
  • https://openalex.org/W1688592801
  • https://openalex.org/W1748131547
  • https://openalex.org/W1967981232
  • https://openalex.org/W2101234009
  • https://openalex.org/W2125446229
  • https://openalex.org/W2135528482
  • https://openalex.org/W2181262297
  • https://openalex.org/W2295546582
  • https://openalex.org/W2295585256
  • https://openalex.org/W2513507089
  • https://openalex.org/W2561747913
  • https://openalex.org/W2585583534
  • https://openalex.org/W2601037984
  • https://openalex.org/W2741141164
  • https://openalex.org/W2741795463
  • https://openalex.org/W2895799718
  • https://openalex.org/W3198103189