Published June 1, 2023 | Version v1
Publication Open

Enhanced descriptive captioning model for histopathological patches

  • 1. Kafrelsheikh University
  • 2. Mansoura University

Description

Abstract The interpretation of medical images into a natural language is a developing field of artificial intelligence (AI) called image captioning. This field integrates two branches of artificial intelligence which are computer vision and natural language processing. This is a challenging topic that goes beyond object recognition, segmentation, and classification since it demands an understanding of the relationships between various components in an image and how these objects function as visual representations. The content-based image retrieval (CBIR) uses an image captioning model to generate captions for the user query image. The common architecture of medical image captioning systems consists mainly of an image feature extractor subsystem followed by a caption generation lingual subsystem. We aim in this paper to build an optimized model for histopathological captions of stomach adenocarcinoma endoscopic biopsy specimens. For the image feature extraction subsystem, we did two evaluations; first, we tested 5 different vision models (VGG, ResNet, PVT, SWIN-Large, and ConvNEXT-Large) using (LSTM, RNN, and bidirectional-RNN) and then compare the vision models with (LSTM-without augmentation, LSTM-with augmentation and BioLinkBERT-Large as an embedding layer-with augmentation) to find the accurate one. Second, we tested 3 different concatenations of pairs of vision models (SWIN-Large, PVT_v2_b5, and ConvNEXT-Large) to get among them the most expressive extracted feature vector of the image. For the caption generation lingual subsystem, we tested a pre-trained language embedding model which is BioLinkBERT-Large compared to LSTM in both evaluations, to select from them the most accurate model. Our experiments showed that building a captioning system that uses a concatenation of the two models ConvNEXT-Large and PVT_v2_b5 as an image feature extractor, combined with the BioLinkBERT-Large language embedding model produces the best results among the other combinations.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يعد تفسير الصور الطبية إلى لغة طبيعية مجالًا متطورًا للذكاء الاصطناعي (AI) يسمى تسميات الصور التوضيحية. يدمج هذا المجال فرعين من الذكاء الاصطناعي وهما رؤية الكمبيوتر ومعالجة اللغة الطبيعية. هذا موضوع صعب يتجاوز التعرف على الأشياء وتقسيمها وتصنيفها لأنه يتطلب فهمًا للعلاقات بين المكونات المختلفة في الصورة وكيف تعمل هذه الأشياء كتمثيلات مرئية. يستخدم استرجاع الصور القائم على المحتوى (CBIR) نموذج تسميات توضيحية للصور لإنشاء تسميات توضيحية لصورة استعلام المستخدم. تتكون البنية الشائعة لأنظمة التسميات التوضيحية للصور الطبية بشكل أساسي من نظام فرعي لمستخرج ميزات الصور متبوعًا بنظام فرعي لغوي لتوليد التسميات التوضيحية. نهدف في هذه الورقة إلى بناء نموذج محسن للتعليقات النسيجية لعينات الخزعة بالمنظار للسرطان الغدي في المعدة. بالنسبة للنظام الفرعي لاستخراج ميزة الصورة، أجرينا تقييمين ؛ أولاً، اختبرنا 5 نماذج رؤية مختلفة (VGG و ResNet و PVT و SWIN - Large و ConvNEXT - Large) باستخدام (LSTM و RNN و ثنائية الاتجاه - RNN) ثم قارنا نماذج الرؤية مع (LSTM - بدون زيادة، LSTM - مع زيادة و BioLinkBERT - Large كطبقة تضمين - مع زيادة) للعثور على النموذج الدقيق. ثانيًا، اختبرنا 3 سلاسل مختلفة من أزواج نماذج الرؤية (SWIN - Large و PVT_v2_b5 و ConvNEXT - Large) للحصول على أكثر متجهات الميزات المستخرجة تعبيرًا للصورة. بالنسبة للنظام الفرعي اللغوي لتوليد التسميات التوضيحية، اختبرنا نموذج تضمين لغة مدرب مسبقًا وهو BioLinkBERT - Large مقارنة بـ LSTM في كلا التقييمين، للاختيار من بينها النموذج الأكثر دقة. أظهرت تجاربنا أن بناء نظام تسميات توضيحية يستخدم سلسلة من النموذجين ConvNEXT - Large و PVT_v2_b5 كمستخرج لميزة الصورة، جنبًا إلى جنب مع نموذج تضمين اللغة BioLinkBERT - Large ينتج أفضل النتائج بين المجموعات الأخرى.

Translated Description (French)

Résumé L'interprétation d'images médicales dans un langage naturel est un domaine en développement de l'intelligence artificielle (IA) appelé sous-titrage d'images. Ce domaine intègre deux branches de l'intelligence artificielle que sont la vision par ordinateur et le traitement du langage naturel. Il s'agit d'un sujet difficile qui va au-delà de la reconnaissance, de la segmentation et de la classification des objets, car il exige une compréhension des relations entre les différents composants d'une image et de la façon dont ces objets fonctionnent en tant que représentations visuelles. La récupération d'image basée sur le contenu (CBIR) utilise un modèle de sous-titrage d'image pour générer des sous-titres pour l'image de requête utilisateur. L'architecture commune des systèmes de sous-titrage d'images médicales consiste principalement en un sous-système d'extraction de caractéristiques d'image suivi d'un sous-système lingual de génération de sous-titres. Nous visons dans cet article à construire un modèle optimisé pour les légendes histopathologiques des échantillons de biopsie endoscopique d'adénocarcinome de l'estomac. Pour le sous-système d'extraction de caractéristiques d'image, nous avons effectué deux évaluations ; d'abord, nous avons testé 5 modèles de vision différents (VGG, ResNet, PVT, SWIN-Large et ConvNEXT-Large) en utilisant (LSTM, RNN et RNN bidirectionnel), puis nous avons comparé les modèles de vision avec (LSTM sans augmentation, LSTM avec augmentation et BioLinkBERT-Large comme couche d'intégration avec augmentation) pour trouver le modèle précis. Deuxièmement, nous avons testé 3 concaténations différentes de paires de modèles de vision (SWIN-Large, PVT_v2_b5 et ConvNEXT-Large) pour obtenir parmi elles le vecteur de caractéristiques extrait le plus expressif de l'image. Pour le sous-système lingual de génération de sous-titres, nous avons testé un modèle d'intégration linguistique pré-entraîné qui est BioLinkBERT-Large par rapport à LSTM dans les deux évaluations, afin de sélectionner le modèle le plus précis. Nos expériences ont montré que la construction d'un système de sous-titrage qui utilise une concaténation des deux modèles ConvNEXT-Large et PVT_v2_b5 comme extracteur de caractéristiques d'image, combinée au modèle d'intégration de langage BioLinkBERT-Large, produit les meilleurs résultats parmi les autres combinaisons.

Translated Description (Spanish)

Resumen La interpretación de imágenes médicas en un lenguaje natural es un campo en desarrollo de la inteligencia artificial (IA) llamado subtitulado de imágenes. Este campo integra dos ramas de la inteligencia artificial que son la visión artificial y el procesamiento del lenguaje natural. Este es un tema desafiante que va más allá del reconocimiento, la segmentación y la clasificación de objetos, ya que exige una comprensión de las relaciones entre los diversos componentes de una imagen y cómo funcionan estos objetos como representaciones visuales. La recuperación de imágenes basada en contenido (CBIR) utiliza un modelo de subtítulos de imágenes para generar subtítulos para la imagen de consulta del usuario. La arquitectura común de los sistemas de subtitulado de imágenes médicas consiste principalmente en un subsistema extractor de características de imagen seguido de un subsistema lingual de generación de subtítulos. Nuestro objetivo en este artículo es construir un modelo optimizado para subtítulos histopatológicos de muestras de biopsia endoscópica de adenocarcinoma de estómago. Para el subsistema de extracción de características de imagen, hicimos dos evaluaciones; primero, probamos 5 modelos de visión diferentes (VGG, ResNet, Pvt, SWIN-Large y ConvNEXT-Large) utilizando (LSTM, RNN y RNN bidireccional) y luego comparamos los modelos de visión con (LSTM sin aumento, LSTM con aumento y BioLinkBERT-Large como capa de incrustación con aumento) para encontrar el más preciso. En segundo lugar, probamos 3 concatenaciones diferentes de pares de modelos de visión (SWIN-Large, Pvt_v2_b5 y ConvNEXT-Large) para obtener entre ellos el vector de características extraído más expresivo de la imagen. Para el subsistema lingual de generación de subtítulos, probamos un modelo de incrustación de lenguaje preentrenado que es BioLinkBERT-Large en comparación con LSTM en ambas evaluaciones, para seleccionar de ellos el modelo más preciso. Nuestros experimentos demostraron que la construcción de un sistema de subtítulos que utiliza una concatenación de los dos modelos ConvNEXT-Large y Pvt_v2_b5 como extractor de características de imagen, combinado con el modelo de incrustación de lenguaje BioLinkBERT-Large, produce los mejores resultados entre las otras combinaciones.

Files

s11042-023-15884-y.pdf.pdf

Files (1.7 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:6b555042c325b6f48a399cc2d7838720
1.7 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
نموذج تسميات توضيحية وصفية محسنة للبقع النسيجية المرضية
Translated title (French)
Modèle de sous-titrage descriptif amélioré pour les patchs histopathologiques
Translated title (Spanish)
Modelo de subtitulado descriptivo mejorado para parches histopatológicos

Identifiers

Other
https://openalex.org/W4379056220
DOI
10.1007/s11042-023-15884-y

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1969616664
  • https://openalex.org/W2097117768
  • https://openalex.org/W2101105183
  • https://openalex.org/W2149557440
  • https://openalex.org/W2194775991
  • https://openalex.org/W2250539671
  • https://openalex.org/W2302086703
  • https://openalex.org/W2463955103
  • https://openalex.org/W2791738141
  • https://openalex.org/W2914329496
  • https://openalex.org/W2943885184
  • https://openalex.org/W2946450307
  • https://openalex.org/W2977433292
  • https://openalex.org/W2997056851
  • https://openalex.org/W3034971973
  • https://openalex.org/W3035524453
  • https://openalex.org/W3134835849
  • https://openalex.org/W3138516171
  • https://openalex.org/W3164435055
  • https://openalex.org/W3175515048
  • https://openalex.org/W3177029767
  • https://openalex.org/W3185507966
  • https://openalex.org/W4221153690
  • https://openalex.org/W4312443924
  • https://openalex.org/W4312887059