A Computational Theory for the Emergence of Grammatical Categories in Cortical Dynamics
Creators
- 1. University of Buenos Aires
- 2. Argonne National Laboratory
- 3. Loyola University Chicago
- 4. Centro Científico Tecnológico - Mendoza
- 5. Uppsala University
Description
The file Corpora.txt keeps the corpus used to train the model and the different instances of the classifier. It is basically a text file with one sentence per line from the original corpus called test.tsv available at https://github.com/google-research-datasets/wiki-split.git. We eliminated punctuation marks and special characters from the original file putting each sentence per line. Enju_Output.txt holds the outputs generated by Enju in -so mode (Output in stand-off format) using Corpora.txt as input. This file has basically a natural language English per-sentence parse with a wide-coverage probabilistic for HPSG grammar. The file Supervision.txt keeps the grammatical tags of the corpus. This file holds a tag per word and each tag is situated in a single line. Sentences are separated by one empty line while tags from words in the same sentence are located in adjacent lines. The file Word_Category.txt carries the coarse-grained word category information needed by the model and introduced in it by apical dendrites. Each word in the corpus has a word-category tag which provides additional constraints to those provided by lateral dendrites. This file contains a tag per word and each tag is situated in a single line. Sentences are separated by one empty line while tags from words in the same sentence are located in adjacent lines. The file SynSemTests.xlsx keeps all the grammar classification results as well as the statistical analysis in the classification tests.
Translated Descriptions
Translated Description (Arabic)
يحافظ الملف Corpora.txt على المجموعة المستخدمة لتدريب النموذج والمثيلات المختلفة للمصنف. وهو في الأساس ملف نصي يحتوي على جملة واحدة في كل سطر من النص الأصلي المسمى test.tsv متاح على https://github.com/google-research-datasets/wiki-split.git. استبعدنا علامات الترقيم والأحرف الخاصة من الملف الأصلي مع وضع كل جملة في كل سطر. Enju_Output.txt يحمل المخرجات التي تم إنشاؤها بواسطة Enju في وضع - so (الإخراج بتنسيق مباعد) باستخدام Corpora.txt كمدخل. يحتوي هذا الملف بشكل أساسي على لغة طبيعية لتحليل اللغة الإنجليزية لكل جملة مع تغطية احتمالية واسعة لقواعد HPSG. يحتفظ الملف Supervision.txt بالعلامات النحوية للنص. يحتوي هذا الملف على علامة لكل كلمة وتقع كل علامة في سطر واحد. يتم فصل الجمل بسطر فارغ واحد بينما توجد العلامات من الكلمات في نفس الجملة في الأسطر المجاورة. يحمل الملف Word_Category.txt معلومات فئة الكلمات الخشنة التي يحتاجها النموذج ويتم تقديمها فيه بواسطة تغصنات قمية. تحتوي كل كلمة في المجموعة على علامة فئة الكلمات التي توفر قيودًا إضافية لتلك التي توفرها التغصنات الجانبية. يحتوي هذا الملف على علامة لكل كلمة وتقع كل علامة في سطر واحد. يتم فصل الجمل بسطر فارغ واحد بينما توجد العلامات من الكلمات في نفس الجملة في الأسطر المجاورة. يحتفظ الملف SynSemTests.xlsx بجميع نتائج التصنيف النحوي بالإضافة إلى التحليل الإحصائي في اختبارات التصنيف.Translated Description (French)
Le fichier Corpora.txt conserve le corpus utilisé pour former le modèle et les différentes instances du classificateur. Il s'agit essentiellement d'un fichier texte avec une phrase par ligne du corpus original appelé test.tsv disponible sur https://github.com/google-research-datasets/wiki-split.git. Nous avons éliminé les signes de ponctuation et les caractères spéciaux du fichier d'origine en mettant chaque phrase par ligne. Enju_Output.txt conserve les sorties générées par Enju en mode -so (sortie au format stand-off) en utilisant Corpora.txt comme entrée. Ce fichier a essentiellement un langage naturel anglais par phrase avec une large couverture probabiliste pour la grammaire HPSG. Le fichier Supervision.txt conserve les balises grammaticales du corpus. Ce fichier contient une balise par mot et chaque balise est située sur une seule ligne. Les phrases sont séparées par une ligne vide tandis que les balises des mots de la même phrase sont situées dans les lignes adjacentes. Le fichier Word_Category.txt contient les informations de catégorie de mots à grain grossier nécessaires au modèle et introduites dans celui-ci par des dendrites apicales. Chaque mot du corpus a une balise word-category qui fournit des contraintes supplémentaires à celles fournies par les dendrites latérales. Ce fichier contient une balise par mot et chaque balise est située sur une seule ligne. Les phrases sont séparées par une ligne vide tandis que les balises des mots de la même phrase sont situées dans les lignes adjacentes. Le fichier SynSemTests.xlsx conserve tous les résultats de classification grammaticale ainsi que l'analyse statistique dans les tests de classification.Translated Description (Spanish)
El fichero Corpora.txt conserva el corpus utilizado para entrenar el modelo y las diferentes instancias del clasificador. Es básicamente un archivo de texto con una oración por línea del corpus original llamado test.tsv disponible en https://github.com/google-research-datasets/wiki-split.git. Eliminamos los signos de puntuación y los caracteres especiales del archivo original poniendo cada oración por línea. Enju_Output.txt mantiene las salidas generadas por Enju en modo -so (Salida en formato stand-off) utilizando Corpora.txt como entrada. Este archivo tiene básicamente un análisis sintáctico por oración en inglés de lenguaje natural con una probabilística de amplia cobertura para la gramática de HPSG. El archivo Supervision.txt mantiene las etiquetas gramaticales del corpus. Este archivo contiene una etiqueta por palabra y cada etiqueta está situada en una sola línea. Las oraciones están separadas por una línea vacía, mientras que las etiquetas de las palabras de la misma oración se encuentran en líneas adyacentes. El archivo Word_Category.txt lleva la información de categoría de palabras de grano grueso necesaria para el modelo e introducida en él por las dendritas apicales. Cada palabra en el corpus tiene una etiqueta de categoría de palabra que proporciona restricciones adicionales a las proporcionadas por las dendritas laterales. Este archivo contiene una etiqueta por palabra y cada etiqueta está situada en una sola línea. Las oraciones están separadas por una línea vacía, mientras que las etiquetas de las palabras de la misma oración se encuentran en líneas adyacentes. El archivo SynSemTests.xlsx guarda todos los resultados de la clasificación gramatical, así como el análisis estadístico en las pruebas de clasificación.Additional details
Additional titles
- Translated title (Arabic)
- نظرية حسابية لظهور الفئات النحوية في الديناميات القشرية
- Translated title (French)
- Une théorie computationnelle pour l'émergence de catégories grammaticales en dynamique corticale
- Translated title (Spanish)
- Una teoría computacional para el surgimiento de categorías gramaticales en la dinámica cortical
Identifiers
- Other
- https://openalex.org/W4393830284
- DOI
- 10.5281/zenodo.3364686