Published January 4, 2022 | Version v1
Publication Open

Hierarchical shared transfer learning for biomedical named entity recognition

  • 1. Beijing University of Chemical Technology
  • 2. Peking University
  • 3. Peking University Third Hospital

Description

Biomedical named entity recognition (BioNER) is a basic and important medical information extraction task to extract medical entities with special meaning from medical texts. In recent years, deep learning has become the main research direction of BioNER due to its excellent data-driven context coding ability. However, in BioNER task, deep learning has the problem of poor generalization and instability.we propose the hierarchical shared transfer learning, which combines multi-task learning and fine-tuning, and realizes the multi-level information fusion between the underlying entity features and the upper data features. We select 14 datasets containing 4 types of entities for training and evaluate the model. The experimental results showed that the F1-scores of the five gold standard datasets BC5CDR-chemical, BC5CDR-disease, BC2GM, BC4CHEMD, NCBI-disease and LINNAEUS were increased by 0.57, 0.90, 0.42, 0.77, 0.98 and - 2.16 compared to the single-task XLNet-CRF model. BC5CDR-chemical, BC5CDR-disease and BC4CHEMD achieved state-of-the-art results.The reasons why LINNAEUS's multi-task results are lower than single-task results are discussed at the dataset level.Compared with using multi-task learning and fine-tuning alone, the model has more accurate recognition ability of medical entities, and has higher generalization and stability.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد التعرف على الكيانات الطبية الحيوية (BioNER) مهمة أساسية ومهمة لاستخراج المعلومات الطبية لاستخراج الكيانات الطبية ذات المعنى الخاص من النصوص الطبية. في السنوات الأخيرة، أصبح التعلم العميق الاتجاه البحثي الرئيسي لـ BioNER بسبب قدرته الممتازة على ترميز السياق القائم على البيانات. ومع ذلك، في مهمة BioNER، يواجه التعلم العميق مشكلة سوء التعميم وعدم الاستقرار. نقترح تعلم النقل المشترك الهرمي، الذي يجمع بين التعلم متعدد المهام والضبط الدقيق، ويدرك اندماج المعلومات متعدد المستويات بين ميزات الكيان الأساسي وميزات البيانات العليا. نختار 14 مجموعة بيانات تحتوي على 4 أنواع من الكيانات للتدريب وتقييم النموذج. أظهرت النتائج التجريبية أن الدرجات F1 لمجموعات البيانات القياسية الذهبية الخمس BC5CDR - الكيميائية و BC5CDR - المرض و BC2GM و BC4CHEMD و NCBI - المرض و LINNAEUS قد زادت بمقدار 0.57 و 0.90 و 0.42 و 0.77 و 0.98 و - 2.16 مقارنة بنموذج XLNet - CRF أحادي المهمة. حققت BC5CDR - المواد الكيميائية و BC5CDR - المرض و BC4CHEMD أحدث النتائج. تتم مناقشة الأسباب التي تجعل نتائج لينيوس متعددة المهام أقل من نتائج المهمة الواحدة على مستوى مجموعة البيانات. مقارنة باستخدام التعلم متعدد المهام والضبط الدقيق وحده، يتمتع النموذج بقدرة اعتراف أكثر دقة للكيانات الطبية، ولديه تعميم واستقرار أعلى.

Translated Description (French)

La reconnaissance d'entités nommées biomédicales (BioNER) est une tâche d'extraction d'informations médicales de base et importante pour extraire des entités médicales ayant une signification particulière à partir de textes médicaux. Ces dernières années, l'apprentissage profond est devenu la principale direction de recherche de BioNER en raison de son excellente capacité de codage contextuel axé sur les données. Cependant, dans la tâche BioNER, l'apprentissage profond a le problème de la mauvaise généralisation et de l'instabilité. Nous proposons l'apprentissage par transfert partagé hiérarchique, qui combine l'apprentissage multitâche et le réglage fin, et réalise la fusion d'informations à plusieurs niveaux entre les caractéristiques de l'entité sous-jacente et les caractéristiques des données supérieures. Nous sélectionnons 14 ensembles de données contenant 4 types d'entités pour la formation et évaluons le modèle. Les résultats expérimentaux ont montré que les scores F1 des cinq ensembles de données de référence BC5CDR-chimique, BC5CDR-maladie, BC2GM, BC4CHEMD, NCBI-maladie et LINNAEUS étaient augmentés de 0,57, 0,90, 0,42, 0,77, 0,98 et - 2,16 par rapport au modèle XLNet-CRF à tâche unique. BC5CDR-chimique, BC5CDR-maladie et BC4CHEMD ont obtenu des résultats de pointe. Les raisons pour lesquelles les résultats multitâches de LINNAEUS sont inférieurs aux résultats d'une seule tâche sont discutées au niveau de l'ensemble de données. Comparé à l'utilisation de l'apprentissage multitâche et du réglage fin seul, le modèle a une capacité de reconnaissance plus précise des entités médicales et a une généralisation et une stabilité plus élevées.

Translated Description (Spanish)

El reconocimiento biomédico de entidades con nombre (BioNER) es una tarea básica e importante de extracción de información médica para extraer entidades médicas con un significado especial de los textos médicos. En los últimos años, el aprendizaje profundo se ha convertido en la principal dirección de investigación de BioNER debido a su excelente capacidad de codificación de contexto basada en datos. Sin embargo, en la tarea BioNER, el aprendizaje profundo tiene el problema de la mala generalización y la inestabilidad. Proponemos el aprendizaje jerárquico de transferencia compartida, que combina el aprendizaje multitarea y el ajuste fino, y realiza la fusión de información multinivel entre las características de la entidad subyacente y las características de los datos superiores. Seleccionamos 14 conjuntos de datos que contienen 4 tipos de entidades para la capacitación y evaluamos el modelo. Los resultados experimentales mostraron que las puntuaciones F1 de los cinco conjuntos de datos estándar de oro BC5CDR-químico, BC5CDR-enfermedad, BC2GM, BC4CHEMD, NCBI-enfermedad y LINNAEUS aumentaron en 0,57, 0,90, 0,42, 0,77, 0,98 y - 2,16 en comparación con el modelo XLNet-CRF de una sola tarea. BC5CDR-química, BC5CDR-enfermedad y BC4CHEMD lograron resultados de vanguardia. Las razones por las que los resultados multitarea de LINNAEUS son más bajos que los resultados de una sola tarea se discuten a nivel de conjunto de datos. En comparación con el uso del aprendizaje multitarea y el ajuste fino solo, el modelo tiene una capacidad de reconocimiento más precisa de las entidades médicas y tiene una mayor generalización y estabilidad.

Files

s12859-021-04551-4.pdf

Files (1.9 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:b3b84605d7a867f8f492ebd510de835d
1.9 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
تعلم النقل المشترك الهرمي للتعرف على الكيانات الطبية الحيوية المسماة
Translated title (French)
Apprentissage par transfert partagé hiérarchique pour la reconnaissance d'entités nommées biomédicales
Translated title (Spanish)
Aprendizaje jerárquico de transferencia compartida para el reconocimiento biomédico de entidades con nombre

Identifiers

Other
https://openalex.org/W4206380771
DOI
10.1186/s12859-021-04551-4

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W2022479123
  • https://openalex.org/W2100627415
  • https://openalex.org/W2146089916
  • https://openalex.org/W2147800946
  • https://openalex.org/W2149369282
  • https://openalex.org/W2154142897
  • https://openalex.org/W2169099542
  • https://openalex.org/W2170408480
  • https://openalex.org/W2346452181
  • https://openalex.org/W2516255829
  • https://openalex.org/W2625625371
  • https://openalex.org/W2734608416
  • https://openalex.org/W2743028754
  • https://openalex.org/W2887280559
  • https://openalex.org/W2896193347
  • https://openalex.org/W2911489562
  • https://openalex.org/W2949176808
  • https://openalex.org/W2950021574
  • https://openalex.org/W2963339489
  • https://openalex.org/W2976476443
  • https://openalex.org/W3011594683
  • https://openalex.org/W3024305464
  • https://openalex.org/W3041133507
  • https://openalex.org/W3046375318
  • https://openalex.org/W3090469165
  • https://openalex.org/W3105491236
  • https://openalex.org/W3125468681
  • https://openalex.org/W3170383918
  • https://openalex.org/W3193913352