Published December 20, 2022 | Version v1
Publication Open

Joint extraction of Chinese medical entities and relations based on RoBERTa and single-module global pointer

  • 1. Beijing Forestry University
  • 2. Chinese Academy of Medical Sciences & Peking Union Medical College

Description

Abstract Background: Most Chinese joint entity and relation extraction tasks in medicine involve numerous nested entities, overlapping relations, and other challenging extraction issues. In response to these problems, some traditional methods decompose the joint extraction task into multiple steps or multiple modules, resulting in local dependency in the meantime. Methods: To alleviate this issue, we propose a joint extraction model of Chinese medical entities and relations based on RoBERTa and single-module global pointer, namely RSGP, which formulates joint extraction as a global pointer linking problem. Considering the uniqueness of Chinese language structure, we introduce the RoBERTa-wwm pre-training language model at the encoding layer to obtain a better embedding representation. Then, we represent the input sentence as a three-dimensional matrix and score each position in the matrix to prepare for the subsequent process of decoding the triples. In the end, we design a novel single-module global pointer decoding approach to alleviate the generation of redundant information. Specifically, we analyze the decoding process of single character entities individually, improving the time and space performance of RSGP to some extent. Results: In order to verify the effectiveness of our model in extracting Chinese medical entities and relations, we carry out the experiments on the public dataset, CMeIE. Experimental results show that RSGP performs significantly better on the joint extraction of Chinese medical entities and relations, and achieves state-of-the-art results compared with baseline models. Conclusion: The proposed RSGP can effectively extract entities and relations from Chinese medical texts and help to realize the structure of Chinese medical texts, so as to provide high-quality data support for the construction of Chinese medical knowledge graphs.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

خلفية مجردة: تتضمن معظم مهام استخراج الكيان الصيني المشترك والعلاقات في الطب العديد من الكيانات المتداخلة والعلاقات المتداخلة وقضايا الاستخراج الصعبة الأخرى. استجابة لهذه المشاكل، تقوم بعض الطرق التقليدية بتحليل مهمة الاستخراج المشترك إلى خطوات متعددة أو وحدات متعددة، مما يؤدي إلى التبعية المحلية في هذه الأثناء. الطرق: للتخفيف من هذه المشكلة، نقترح نموذج استخراج مشترك للكيانات والعلاقات الطبية الصينية بناءً على ROBERTA والمؤشر العالمي أحادي الوحدة، وهو RSGP، الذي يصوغ الاستخراج المشترك كمشكلة ربط مؤشر عالمي. بالنظر إلى تفرد بنية اللغة الصينية، نقدم نموذج لغة ما قبل التدريب RoBERTa - WWM في طبقة الترميز للحصول على تمثيل تضمين أفضل. بعد ذلك، نمثل جملة الإدخال كمصفوفة ثلاثية الأبعاد ونحرز كل موضع في المصفوفة للتحضير للعملية اللاحقة لفك تشفير الثلاثيات. في النهاية، نصمم نهجًا جديدًا لفك تشفير المؤشر العالمي أحادي الوحدة للتخفيف من توليد المعلومات الزائدة عن الحاجة. على وجه التحديد، نقوم بتحليل عملية فك تشفير الكيانات ذات الشخصية الواحدة بشكل فردي، مما يحسن أداء الوقت والمكان في RSGP إلى حد ما. النتائج: من أجل التحقق من فعالية نموذجنا في استخراج الكيانات والعلاقات الطبية الصينية، نقوم بإجراء التجارب على مجموعة البيانات العامة، CMeIE. تظهر النتائج التجريبية أن أداء RSGP أفضل بكثير في الاستخراج المشترك للكيانات والعلاقات الطبية الصينية، ويحقق أحدث النتائج مقارنة بالنماذج الأساسية. الخلاصة: يمكن لبرنامج RSGP المقترح استخراج الكيانات والعلاقات بشكل فعال من النصوص الطبية الصينية والمساعدة في تحقيق بنية النصوص الطبية الصينية، وذلك لتوفير دعم بيانات عالي الجودة لبناء الرسوم البيانية للمعرفة الطبية الصينية.

Translated Description (French)

Résumé Contexte : La plupart des tâches conjointes chinoises d'extraction d'entités et de relations en médecine impliquent de nombreuses entités imbriquées, des relations qui se chevauchent et d'autres problèmes d'extraction difficiles. En réponse à ces problèmes, certaines méthodes traditionnelles décomposent la tâche d'extraction conjointe en plusieurs étapes ou plusieurs modules, entraînant une dépendance locale entre-temps. Méthodes : Pour pallier ce problème, nous proposons un modèle d'extraction conjointe d'entités et de relations médicales chinoises basé sur RoBERTa et un pointeur global à module unique, à savoir RSGP, qui formule l'extraction conjointe comme un problème de liaison de pointeur global. Compte tenu de l'unicité de la structure de la langue chinoise, nous introduisons le modèle de langage de pré-formation RoBERTa-wwm au niveau de la couche d'encodage pour obtenir une meilleure représentation d'intégration. Ensuite, nous représentons la phrase d'entrée comme une matrice tridimensionnelle et notons chaque position dans la matrice pour préparer le processus ultérieur de décodage des triplets. En fin de compte, nous concevons une nouvelle approche de décodage de pointeur global à module unique pour atténuer la génération d'informations redondantes. Plus précisément, nous analysons le processus de décodage des entités à caractère unique individuellement, améliorant dans une certaine mesure les performances temporelles et spatiales du RSGP. Résultats : Afin de vérifier l'efficacité de notre modèle dans l'extraction d'entités et de relations médicales chinoises, nous effectuons les expériences sur l'ensemble de données publiques, CMeIE. Les résultats expérimentaux montrent que le RSGP fonctionne significativement mieux sur l'extraction conjointe des entités et des relations médicales chinoises, et atteint des résultats de pointe par rapport aux modèles de référence. Conclusion : Le RSGP proposé peut extraire efficacement les entités et les relations des textes médicaux chinois et aider à réaliser la structure des textes médicaux chinois, afin de fournir un support de données de haute qualité pour la construction de graphiques de connaissances médicales chinoises.

Translated Description (Spanish)

Antecedentes abstractos: La mayoría de las tareas de extracción de entidades y relaciones conjuntas chinas en medicina involucran numerosas entidades anidadas, relaciones superpuestas y otros problemas de extracción desafiantes. En respuesta a estos problemas, algunos métodos tradicionales descomponen la tarea de extracción conjunta en múltiples pasos o múltiples módulos, lo que resulta en una dependencia local mientras tanto. Métodos: Para aliviar este problema, proponemos un modelo de extracción conjunta de entidades y relaciones médicas chinas basado en RoBERTa y puntero global de módulo único, a saber, RSGP, que formula la extracción conjunta como un problema de enlace de puntero global. Teniendo en cuenta la singularidad de la estructura del idioma chino, presentamos el modelo de lenguaje de preentrenamiento RoBERTa-wwm en la capa de codificación para obtener una mejor representación de incrustación. Luego, representamos la oración de entrada como una matriz tridimensional y puntuamos cada posición en la matriz para prepararnos para el proceso posterior de decodificación de los triples. Al final, diseñamos un novedoso enfoque de decodificación de puntero global de un solo módulo para aliviar la generación de información redundante. Específicamente, analizamos el proceso de decodificación de entidades de un solo carácter individualmente, mejorando el rendimiento temporal y espacial de RSGP en cierta medida. Resultados: Para verificar la efectividad de nuestro modelo en la extracción de entidades y relaciones médicas chinas, realizamos los experimentos en el conjunto de datos público, CMeIE. Los resultados experimentales muestran que RSGP se desempeña significativamente mejor en la extracción conjunta de entidades y relaciones médicas chinas, y logra resultados de vanguardia en comparación con los modelos de referencia. Conclusión: El RSGP propuesto puede extraer de manera efectiva entidades y relaciones de los textos médicos chinos y ayudar a realizar la estructura de los textos médicos chinos, a fin de proporcionar soporte de datos de alta calidad para la construcción de gráficos de conocimiento médico chino.

Files

latest.pdf.pdf

Files (6.4 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:85ba2ef62061fa88bf6b020b8deb560e
6.4 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
الاستخراج المشترك للكيانات والعلاقات الطبية الصينية على أساس مؤشر روبيرتا والمؤشر العالمي أحادي الوحدة
Translated title (French)
Extraction conjointe d'entités médicales chinoises et relations basées sur RoBERTa et pointeur global monomodule
Translated title (Spanish)
Extracción conjunta de entidades médicas chinas y relaciones basadas en RoBERTa y puntero global de módulo único

Identifiers

Other
https://openalex.org/W4313448537
DOI
10.21203/rs.3.rs-2313192/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1889268436
  • https://openalex.org/W2250521169
  • https://openalex.org/W2604314403
  • https://openalex.org/W2808142148
  • https://openalex.org/W2896457183
  • https://openalex.org/W2912678423
  • https://openalex.org/W2949972983
  • https://openalex.org/W2965373594
  • https://openalex.org/W3034617555
  • https://openalex.org/W3049165041
  • https://openalex.org/W3092364978
  • https://openalex.org/W3106616051
  • https://openalex.org/W3116427155
  • https://openalex.org/W3118020850
  • https://openalex.org/W3161397599
  • https://openalex.org/W3165523615
  • https://openalex.org/W3173583162
  • https://openalex.org/W3174505712
  • https://openalex.org/W3176095518
  • https://openalex.org/W3198980621
  • https://openalex.org/W3212955044
  • https://openalex.org/W4221156858
  • https://openalex.org/W4229909500
  • https://openalex.org/W4283689910
  • https://openalex.org/W4283691837
  • https://openalex.org/W4292637308