Published July 26, 2023 | Version v1
Publication Open

Peer Review #2 of "An automatic system for extracting figure-caption pair from medical documents: a six-fold approach (v0.1)"

  • 1. Vellore Institute of Technology University

Description

Background. Figures and captions inmedical documentation contain important information.As a result, researchers are becoming more interested in obtaining published medical figures from medical papers and utilizing the captions as a knowledge source.Methods.This work introduces a unique and successful six-fold methodology for extracting figure-caption pairs.The A-torus wavelet transform is used to retrieve the first edge from the scanned page.Then, using the Maximally Stable Extremal Regions connected component feature, text and graphical contents are isolated from the edge document, and multi-layer perceptron is used to successfully detect and retrieve figures and captions from medical records.The figure-caption pair is then extracted using the bounding box approach.The files that contain the figures and captions are saved separately and supplied to the end useras theoutput of any investigation.The proposed approach is evaluated using a self-created database based on the pages collected from five open access books: Sergey Makarov, Gregory Noetscher and Aapo Nummenmaa's book "Brain and Human Body Modelling 2021", "Healthcare and Disease Burden in Africa" by Ilha Niohuru, "All-Optical Methods to Study Neuronal Function" by Eirini Papagiakoumou, "RNA, the Epicenter of Genetic Information" by John Mattick and Paulo Amaral and "Illustrated Manual of Pediatric Dermatology" by Susan Bayliss Mallory, Alanna Bree and Peggy Chern.Results.Experiments and findings comparing the new method to earlier systems reveal a significant increase in efficiency, demonstrating the suggested technique's robustness and efficiency.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

خلفية. تحتوي الأرقام والتعليقات التوضيحية في الوثائق الطبية على معلومات مهمة. ونتيجة لذلك، أصبح الباحثون أكثر اهتمامًا بالحصول على الأرقام الطبية المنشورة من الأوراق الطبية والاستفادة من التسميات التوضيحية كمصدر للمعرفة. الأساليب. يقدم هذا العمل منهجية فريدة وناجحة من ستة أضعاف لاستخراج أزواج التسميات التوضيحية. يتم استخدام A - torus wavelet transform لاسترداد الحافة الأولى من الصفحة الممسوحة ضوئيًا. ثم، باستخدام ميزة المكون المتصل Maximally Stable Extremal Regions، يتم عزل النص والمحتويات الرسومية من مستند الحافة، ويستخدم جهاز الإدراك متعدد الطبقات للكشف عن الأرقام والتعليقات التوضيحية واستردادها بنجاح من السجلات الطبية. ثم يتم استخراج زوج التسمية التوضيحية باستخدام نهج المربع المحيط. يتم حفظ الملفات التي تحتوي على الأرقام والتعليقات التوضيحية بشكل منفصل وتوفيرها للمستخدم النهائي كمخرجات لأي تحقيق. يتم تقييم النهج المقترح باستخدام قاعدة بيانات تم إنشاؤها ذاتيًا استنادًا إلى الصفحات التي تم جمعها من خمسة كتب مفتوحة الوصول: كتاب سيرجي ماكاروف وغريغوري نويتشر وآبو نومينا "نمذجة الدماغ والجسم البشري 2021"، "عبء الرعاية الصحية والأمراض في أفريقيا" بواسطة إلها نيوهور، "طرق بصرية شاملة لدراسة وظائف الخلايا العصبية" بقلم إيريني باباجياكومو "، RNA، مركز المعلومات الوراثية" بقلم جون ماتيك وباولو أمارال و "الدليل المصور لأمراض الأطفال الجلدية" بقلم سوزان بايليس مالوري وألانا بري وبيجي تشيرن. النتائج. تكشف التجارب والنتائج التي تقارن الطريقة الجديدة بالأنظمة السابقة عن زيادة كبيرة في الكفاءة، مما يدل على قوة التقنية المقترحة وكفاءتها.

Translated Description (French)

Contexte. Les figures et les légendes dans la documentation médicale contiennent des informations importantes. En conséquence, les chercheurs s'intéressent de plus en plus à l'obtention de figures médicales publiées à partir de documents médicaux et à l'utilisation des légendes comme source de connaissances. Méthodes. Ce travail introduit une méthodologie unique et réussie par six pour extraire des paires de figures et de légendes. La transformée en ondelettes A-torus est utilisée pour récupérer le premier bord de la page numérisée. Ensuite, en utilisant la fonctionnalité de composant connecté Maximally Stable Extremal Regions, le texte et le contenu graphique sont isolés du document Edge, et le perceptron multicouche est utilisé pour détecter et récupérer avec succès des figures et des légendes à partir de dossiers médicaux. La paire de figures et de légendes est ensuite extraite à l'aide de l'approche de la boîte englobante. Les fichiers contenant les figures et les légendes sont enregistrés séparément et fournis à l'utilisateur final en sortie de toute enquête. L'approche proposée est évaluée à l'aide d'une base de données auto-créée à partir des pages collectées à partir de cinq livres en libre accès : Sergey Makarov, Gregory Noetscher et le livre d'Aapo Nummenmaa « Brain and Human Body Modelling 2021 », « Healthcare and Disease Burden in Africa » par Ilha Niohuru, « All-Optical Methods to Study Neuronal Function » par Eirini Papagiakoumou, « RNA, the Epicenter of Genetic Information » par John Mattick et Paulo Amaral et « Illustrated Manual of Pediatric Dermatology » par Susan Bayliss Mallory, Alanna Bree et Peggy Chern.Results.Les expériences et les résultats comparant la nouvelle méthode aux systèmes antérieurs révèlent une augmentation significative de l'efficacité, démontrant la robustesse et l'efficacité de la technique suggérée.

Translated Description (Spanish)

Antecedentes. Las figuras y los subtítulos en la documentación médica contienen información importante. Como resultado, los investigadores están cada vez más interesados en obtener cifras médicas publicadas a partir de artículos médicos y utilizar los subtítulos como fuente de conocimiento. Métodos. Este trabajo introduce una metodología única y exitosa de seis pliegues para extraer pares de figuras y subtítulos. La transformada de wavelet A-torus se utiliza para recuperar el primer borde de la página escaneada. Luego, utilizando la función de componente conectado de Regiones Extremas Máximamente Estables, el texto y el contenido gráfico se aíslan del documento de borde. y el perceptrón multicapa se utiliza para detectar y recuperar con éxito figuras y subtítulos de los registros médicos. El par de figuras y subtítulos se extrae utilizando el enfoque de cuadro delimitador. Los archivos que contienen las figuras y los subtítulos se guardan por separado y se proporcionan al final de cualquier investigación. El enfoque propuesto se evalúa utilizando una base de datos autocreada basada en las páginas recopiladas de cinco libros de acceso abierto: Sergey Makarov, Gregory Noetscher y el libro de Aapo Nummenmaa "Brain and Human Body Modelling 2021", "Healthcare and Disease Burden in Africa" de Ilha Niohuru, "All-Optical Methods to Study Neuronal Function" de Eirini Papagiakoumou, "RNA, the Epicenter of Genetic Information" de John Mattick y Paulo Amaral y "Illustrated Manual of Pediatric Dermatology" de Susan Bayliss Mallory, Alanna Bree y Peggy Chern.Results. Los experimentos y hallazgos que comparan el nuevo método con sistemas anteriores revelan un aumento significativo de la eficiencia, lo que demuestra la robustez y eficiencia de la técnica sugerida.

Files

submission.pdf

Files (3.7 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:19855fa2859e45ec80eb840215bdd0cb
3.7 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مراجعة الأقران رقم2 من "نظام آلي لاستخراج زوج من التسمية التوضيحية الشكلية من المستندات الطبية: نهج من ستة أضعاف (الإصدار 0.1 )"
Translated title (French)
Revue par les pairs n °2 de « An automatic system for extracting figure-caption pair from medical documents : a six-fold approach (v0.1) »
Translated title (Spanish)
Revisión por pares n .º2 de "Un sistema automático para extraer el par de subtítulos de los documentos médicos: un enfoque de seis veces (v0.1)"

Identifiers

Other
https://openalex.org/W4385400428
DOI
10.7287/peerj-cs.1452v0.1/reviews/2

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
India