Published December 26, 2018 | Version v1
Publication Open

MorphoBr: an open source large-coverage full-form lexicon for morphological analysis of Portuguese

  • 1. Universidade Federal do Ceará
  • 2. Fundação Getulio Vargas

Description

ABSTRACT: One of the prerequisites for many natural language processing technologies is the availability of large lexical resources. This paper reports on MorphoBr, an ongoing project aiming at building a comprehensive full-form lexicon for morphological analysis of Portuguese. A first version of the resource is already freely available online under an open source, free software license. MorphoBr combines analogous free resources, correcting several thousand errors and gaps, and systematically adding new entries. In comparison to the integrated resources, lexical entries in MorphoBr follow a more user-friendly format, which can be straightforwardly compiled into finite-state transducers for morphological analysis, e.g. in the context of syntactic parsing with a grammar in the LFG formalism using the XLE system. MorphoBr results from a combination of computational techniques. Errors and the more obvious gaps in the integrated resources were automatically corrected with scripts. However, MorphoBr's main contribution is the expansion in the inventory of nouns and adjectives. This was carried out by systematically modeling diminutive formation in the paradigm of finite-state morphology. This allowed MorphoBr to significantly outperform analogous resources in the coverage of diminutives. The first evaluation results show MorphoBr to be a promising initiative which will directly contribute to the development of more robust natural language processing tools and applications which depend on wide-coverage morphological analysis.KEYWORDS: computational linguistics; natural language processing; morphological analysis; full-form lexicon; diminutive formation. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الخلاصة: أحد المتطلبات الأساسية للعديد من تقنيات معالجة اللغة الطبيعية هو توافر موارد معجمية كبيرة. تقدم هذه الورقة تقريرًا عن MorphoBr، وهو مشروع مستمر يهدف إلى بناء معجم شامل كامل للتحليل المورفولوجي للبرتغالية. يتوفر الإصدار الأول من المورد بالفعل مجانًا عبر الإنترنت بموجب ترخيص برمجيات حرة مفتوحة المصدر. يجمع MorphoBr بين الموارد الحرة المماثلة، وتصحيح عدة آلاف من الأخطاء والثغرات، وإضافة إدخالات جديدة بشكل منهجي. بالمقارنة مع الموارد المتكاملة، تتبع الإدخالات المعجمية في MorphoBr تنسيقًا أكثر سهولة في الاستخدام، والذي يمكن تجميعه مباشرة في محولات الحالة المحدودة للتحليل الصرفي، على سبيل المثال في سياق التحليل النحوي مع القواعد في شكلية LFG باستخدام نظام XLE. ينتج MorphoBr عن مجموعة من التقنيات الحسابية. تم تصحيح الأخطاء والفجوات الأكثر وضوحًا في الموارد المتكاملة تلقائيًا باستخدام النصوص. ومع ذلك، فإن مساهمة MorphoBr الرئيسية هي التوسع في جرد الأسماء والصفات. تم تنفيذ ذلك من خلال نمذجة التكوين الضئيل بشكل منهجي في نموذج مورفولوجيا الحالة المحدودة. سمح هذا لـ MorphoBr بالتفوق بشكل كبير على الموارد المماثلة في تغطية العناصر الضئيلة. تُظهر نتائج التقييم الأولى أن MorphoBr مبادرة واعدة ستساهم بشكل مباشر في تطوير أدوات وتطبيقات أكثر قوة لمعالجة اللغة الطبيعية والتي تعتمد على التحليل الصرفي واسع التغطية. KEYWORDS: اللغويات الحسابية ؛ معالجة اللغة الطبيعية ؛ التحليل الصرفي ؛ المعجم الكامل الشكل ؛ التكوين الضئيل. RESUMO: أم ما قبل المتطلبات من أجل muitas tecnologias de processamento de languageagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível freeuitamente on - line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. على سبيل المثال، لا يوجد سياق لتحليل sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de tecnicas computacionais. مخطوطات Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com. لا إنتانتو، المساهم الرئيسي في مورفوبري توسعة لا اختراع دي جوهري ه أدجيتيفوس. إيسو فوي ألكانسادو بيلا مودالاساو سيستيميتيكا دا فورماساو دي مينيروتيفوس لا باراديجما دا مورفولوجيا دي إستادوس فينيتوس. من الممكن أيضًا أن تكون مورفو بي آر سوبيرار دي فورمالاتيفا ريكورسوس أنولوجوس نا كوبرتورا دي مينيروتيفوس. النتائج الأولية للغة هي الشكل التأسيسي للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية للهيئة التأسيسية

Translated Description (French)

RÉSUMÉ : L'une des conditions préalables à de nombreuses technologies de traitement du langage naturel est la disponibilité de grandes ressources lexicales. Cet article rend compte de MorphoBr, un projet en cours visant à construire un lexique complet complet pour l'analyse morphologique du portugais. Une première version de la ressource est déjà disponible gratuitement en ligne sous une licence de logiciel libre open source. MorphoBr combine des ressources gratuites analogues, corrigeant plusieurs milliers d'erreurs et de lacunes, et ajoutant systématiquement de nouvelles entrées. Par rapport aux ressources intégrées, les entrées lexicales dans MorphoBr suivent un format plus convivial, qui peut être directement compilé en transducteurs à états finis pour l'analyse morphologique, par exemple dans le contexte de l'analyse syntaxique avec une grammaire dans le formalisme LFG en utilisant le système XLE. MorphoBr résulte d'une combinaison de techniques de calcul. Les erreurs et les lacunes les plus évidentes dans les ressources intégrées ont été automatiquement corrigées avec des scripts. Cependant, la principale contribution de MorphoBr est l'expansion de l'inventaire des noms et des adjectifs. Ceci a été réalisé en modélisant systématiquement la formation diminutive dans le paradigme de la morphologie à états finis. Cela a permis à MorphoBr de surpasser de manière significative les ressources analogues dans la couverture des diminutifs. Les premiers résultats d'évaluation montrent que MorphoBr est une initiative prometteuse qui contribuera directement au développement d'outils et d'applications de traitement du langage naturel plus robustes qui dépendent d'une analyse morphologique à large couverture.KEYWORDS : linguistique computationnelle ; traitement du langage naturel ; analyse morphologique ; lexique complet ; formation diminutive. RESUMO : Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automaticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBr é a expansão no inventário de substantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfologia de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBrųui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE : linguística computacional ; processamento de linguagem natural ; análise morfológica ; léxico de formas plenas ; formação de diminutivos.

Translated Description (Spanish)

RESUMEN: Uno de los requisitos previos para muchas tecnologías de procesamiento del lenguaje natural es la disponibilidad de grandes recursos léxicos. Este artículo informa sobre MorphoBr, un proyecto en curso destinado a construir un léxico integral de forma completa para el análisis morfológico del portugués. Una primera versión del recurso ya está disponible gratuitamente en línea bajo una licencia de software libre de código abierto. MorphoBr combina recursos libres análogos, corrigiendo varios miles de errores y brechas, y añadiendo sistemáticamente nuevas entradas. En comparación con los recursos integrados, las entradas léxicas en MorphoBr siguen un formato más fácil de usar, que se puede compilar directamente en transductores de estado finito para el análisis morfológico, por ejemplo, en el contexto del análisis sintáctico con una gramática en el formalismo LFG utilizando el sistema XLE. MorphoBr es el resultado de una combinación de técnicas computacionales. Los errores y las lagunas más obvias en los recursos integrados se corrigieron automáticamente con scripts. Sin embargo, la principal contribución de MorphoBr es la expansión en el inventario de sustantivos y adjetivos. Esto se llevó a cabo mediante el modelado sistemático de la formación diminuta en el paradigma de la morfología de estado finito. Esto permitió a MorphoBr superar significativamente a recursos análogos en la cobertura de diminutivos. Los primeros resultados de la evaluación muestran que MorphoBr es una iniciativa prometedora que contribuirá directamente al desarrollo de herramientas y aplicaciones de procesamiento del lenguaje natural más sólidas que dependen del análisis morfológico de amplia cobertura.KEYWORDS: lingüística computacional; procesamiento del lenguaje natural; análisis morfológico; léxico de forma completa; formación diminuta. RESUMO: Um dos pré-requisitos para muitas tecnologias de processamento de linguagem natural é a disponibilidade de vastos recursos lexicais. Este artigo trata do MorphoBr, um projeto em desenvolvimento voltado para a construção de um léxico de formas plenas abrangente para a análise morfológica do português. Uma primeira versão do recurso já está disponível gratuitamente on-line sob uma licença de software livre e de código aberto. MorphoBr combina recursos livres análogos, corrigindo vários milhares de erros e lacunas. Em comparação com os recursos integrados, as entradas lexicais do MorphoBr seguem um formato mais amigável, o qual pode ser compilado diretamente em transdutores de estados finitos para análise morfológica, por exemplo, no contexto do parsing sintático com uma gramática no formalismo da LFG usando o sistema XLE. MorphoBr resulta de uma combinação de técnicas computacionais. Erros e lacunas mais óbvias nos recursos integrados foram automáticamente corrigidos com scripts. No entanto, a principal contribuição de MorphoBré a expansão no inventário de sustantivos e adjetivos. Isso foi alcançado pela modelação sistemática da formação de diminutivos no paradigma da morfología de estados finitos. Isso possibilitou a MorphoBr superar de forma significativa recursos análogos na cobertura de diminutivos. Os primeiros resultados de avaliação mostram que o MorphoBr constitui uma iniciativa promissora que contribuirá de forma direta para conferir robustez a ferramentas e aplicações de processamento de linguagem natural que dependem de análise morfológica de ampla cobertura.PALAVRAS-CHAVE: linguística computacional; processamento de linguagem natural; análise morfológica; léxico de formas plenas; formação de diminutivos.

Files

13570.pdf

Files (271.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:a06be04536f6f238f718881c8cd7a557
271.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
MorphoBr: قاموس مفتوح المصدر كامل التغطية للتحليل المورفولوجي للبرتغالية
Translated title (French)
MorphoBr : un lexique open source complet à grande couverture pour l'analyse morphologique du portugais
Translated title (Spanish)
MorphoBr: un léxico de formato completo de gran cobertura de código abierto para el análisis morfológico del portugués

Identifiers

Other
https://openalex.org/W2907815346
DOI
10.17851/1983-3652.11.3.1-25

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W1487066977
  • https://openalex.org/W1504445898
  • https://openalex.org/W1507528542
  • https://openalex.org/W1515354850
  • https://openalex.org/W1530080274
  • https://openalex.org/W1535127972
  • https://openalex.org/W1535987401
  • https://openalex.org/W1548538618
  • https://openalex.org/W1579838312
  • https://openalex.org/W1602644663
  • https://openalex.org/W1898022694
  • https://openalex.org/W2038248725
  • https://openalex.org/W2066869659
  • https://openalex.org/W24718583
  • https://openalex.org/W2499119234
  • https://openalex.org/W2689113199
  • https://openalex.org/W2791107993
  • https://openalex.org/W3025272698
  • https://openalex.org/W560144434
  • https://openalex.org/W646352211