Reusable Templates and Guides For Documenting Datasets and Models for Natural Language Processing and Generation: A Case Study of the HuggingFace and GEM Data and Model Cards
Creators
- 1. University of Washington
- 2. Kwame Nkrumah University of Science and Technology
- 3. The University of Texas at Austin
- 4. Indian Institute of Technology Hyderabad
- 5. Google (United States)
Description
Developing documentation guidelines and easy-to-use templates for datasets and models is a challenging task, especially given the variety of backgrounds, skills, and incentives of the people involved in the building of natural language processing (NLP) tools.Nevertheless, the adoption of standard documentation practices across the field of NLP promotes more accessible and detailed descriptions of NLP datasets and models, while supporting researchers and developers in reflecting on their work.To help with the standardization of documentation, we present two case studies of efforts that aim to develop reusable documentation templates -the HuggingFace data card, a general purpose card for datasets in NLP, and the GEM benchmark data and model cards with a focus on natural language generation.We describe our process for developing these templates, including the identification of relevant stakeholder groups, the definition of a set of guiding principles, the use of existing templates as our foundation, and iterative revisions based on feedback.
Translated Descriptions
Translated Description (Arabic)
يعد تطوير إرشادات التوثيق والقوالب سهلة الاستخدام لمجموعات البيانات والنماذج مهمة صعبة، خاصة بالنظر إلى تنوع الخلفيات والمهارات والحوافز للأشخاص المشاركين في بناء أدوات معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن اعتماد ممارسات التوثيق القياسية عبر مجال البرمجة اللغوية العصبية يعزز أوصافًا أكثر سهولة وتفصيلاً لمجموعات ونماذج البرمجة اللغوية العصبية، مع دعم الباحثين والمطورين في التفكير في عملهم. للمساعدة في توحيد التوثيق، نقدم دراستي حالة للجهود التي تهدف إلى تطوير قوالب توثيق قابلة لإعادة الاستخدام - بطاقة بيانات HuggingFace، وبطاقة للأغراض العامة لمجموعات البيانات في البرمجة اللغوية العصبية، وبيانات المقارنات المعيارية GEM وبطاقات النماذج مع التركيز على توليد اللغة الطبيعية. نحن نصف عمليتنا لتطوير هذه القوالب، بما في ذلك تحديد مجموعات أصحاب المصلحة ذات الصلة، وتحديد مجموعة من المبادئ التوجيهية، واستخدام القوالب الحالية كأساس لنا، والمراجعات التكرارية بناءً على التعليقات.Translated Description (French)
L'élaboration de directives de documentation et de modèles faciles à utiliser pour les ensembles de données et les modèles est une tâche difficile, en particulier compte tenu de la variété des antécédents, des compétences et des incitations des personnes impliquées dans la construction d'outils de traitement du langage naturel (PNL). Cependant, l'adoption de pratiques de documentation standard dans le domaine de la PNL favorise des descriptions plus accessibles et détaillées des ensembles de données et des modèles de PNL, tout en aidant les chercheurs et les développeurs à réfléchir à leur travail. Pour aider à la normalisation de la documentation, nous présentons deux études de cas sur les efforts visant à développer des modèles de documentation réutilisables - la carte de données HuggingFace, une carte à usage général pour les ensembles de données en PNL, et les données de référence GEM et les cartes modèles axées sur la génération de langage naturel. Nous décrivons notre processus d'élaboration de ces modèles, y compris l'identification des groupes de parties prenantes pertinents, la définition d'un ensemble de principes directeurs, l'utilisation de modèles existants comme base et les révisions itératives basées sur les commentaires.Translated Description (Spanish)
Desarrollar pautas de documentación y plantillas fáciles de usar para conjuntos de datos y modelos es una tarea desafiante, especialmente dada la variedad de antecedentes, habilidades e incentivos de las personas involucradas en la construcción de herramientas de procesamiento de lenguaje natural (PNL). Sin embargo, la adopción de prácticas de documentación estándar en todo el campo de la PNL promueve descripciones más accesibles y detalladas de conjuntos de datos y modelos de PNL, al tiempo que ayuda a los investigadores y desarrolladores a reflexionar sobre su trabajo. Para ayudar con la estandarización de la documentación, presentamos dos estudios de casos de esfuerzos que tienen como objetivo desarrollar plantillas de documentación reutilizables: la tarjeta de datos HuggingFace, una tarjeta de propósito general para conjuntos de datos en PNL, y los datos de referencia GEM y tarjetas de modelos con un enfoque en la generación de lenguaje natural. Describimos nuestro proceso para desarrollar estas plantillas, incluida la identificación de grupos de partes interesadas relevantes, la definición de un conjunto de principios rectores, el uso de plantillas existentes como nuestra base y revisiones iterativas basadas en la retroalimentación.Files
2021.gem-1.11.pdf.pdf
Files
(263.0 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:b979f56f874a74731edfd232835289eb
|
263.0 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- قوالب وأدلة قابلة لإعادة الاستخدام لتوثيق مجموعات البيانات والنماذج لمعالجة اللغة الطبيعية وتوليدها: دراسة حالة لبيانات HuggingFace و GEM وبطاقات النماذج
- Translated title (French)
- Modèles et guides réutilisables pour la documentation des ensembles de données et des modèles pour le traitement et la génération du langage naturel : une étude de cas des cartes de données et de modèles HuggingFace et GEM
- Translated title (Spanish)
- Plantillas y guías reutilizables para documentar conjuntos de datos y modelos para el procesamiento y la generación de lenguaje natural: un estudio de caso de las tarjetas de datos y modelos HuggingFace y GEM
Identifiers
- Other
- https://openalex.org/W3193521099
- DOI
- 10.18653/v1/2021.gem-1.11
References
- https://openalex.org/W147871884
- https://openalex.org/W2216905672
- https://openalex.org/W2363947341
- https://openalex.org/W2911227954
- https://openalex.org/W2950681488
- https://openalex.org/W2952212129
- https://openalex.org/W2970283086
- https://openalex.org/W2974071289
- https://openalex.org/W2979826702
- https://openalex.org/W2986074609
- https://openalex.org/W3034639488
- https://openalex.org/W3100279624
- https://openalex.org/W3102187933
- https://openalex.org/W3133702157
- https://openalex.org/W3135371071
- https://openalex.org/W3186655327
- https://openalex.org/W3200758773
- https://openalex.org/W3212464620
- https://openalex.org/W4238104076
- https://openalex.org/W4244329601
- https://openalex.org/W4287266165
- https://openalex.org/W4287365906
- https://openalex.org/W4294152847
- https://openalex.org/W4299318496
- https://openalex.org/W4307768485