Understanding table content for mineral exploration reports using deep learning and natural language processing
- 1. China University of Geosciences
- 2. Ministry of Natural Resources
- 3. China Three Gorges University
Description
The geological reports contain various tables, and can offer mineral element content data and stratum detailed information. Geological tabular information extraction and its semantic fusion with text is of great significance in converting and fusing geological unstructured data into structured knowledge to guide cognitive intelligence analysis in the geoscience domain. While the performance of general tools and existing table structure analysis methods is limited due to the various merged cells and diagonally split table headers. To address this issue, we propose a novel approach based on the improved Mask R-CNN model to identify and parse the forms. The geological table parsing network constructed in this paper consists of two key steps: (1) A cell feature augmentation (CFA) module to learn the contextual features for identifying cells of different sizes. (2) A table parsing method (GTab) to parse the table header cells with split lines. We compare the proposed method with commonly used table parsing methods on our constructed geological table dataset. Our models are easily integrated into a prototype system to provide joint information processing and analysis.
Translated Descriptions
Translated Description (Arabic)
تحتوي التقارير الجيولوجية على جداول مختلفة، ويمكن أن تقدم بيانات محتوى العناصر المعدنية ومعلومات مفصلة عن الطبقة. استخراج المعلومات الجيولوجية الجدولية واندماجها الدلالي مع النص له أهمية كبيرة في تحويل ودمج البيانات الجيولوجية غير المهيكلة إلى معرفة منظمة لتوجيه تحليل الذكاء المعرفي في مجال العلوم الجيولوجية. في حين أن أداء الأدوات العامة وطرق تحليل بنية الجدول الحالية محدود بسبب الخلايا المدمجة المختلفة ورؤوس الجداول المقسمة قطريًا. لمعالجة هذه المشكلة، نقترح نهجًا جديدًا يعتمد على نموذج قناع R - CNN المحسن لتحديد النماذج وتحليلها. تتكون شبكة تحليل الجدول الجيولوجي التي تم إنشاؤها في هذه الورقة من خطوتين رئيسيتين: (1) وحدة تكبير ميزة الخلية (CFA) لتعلم الميزات السياقية لتحديد الخلايا ذات الأحجام المختلفة. (2) طريقة تحليل الجدول (GTab) لتحليل خلايا رأس الجدول بخطوط مقسمة. نقارن الطريقة المقترحة مع طرق تحليل الجدول الشائعة الاستخدام في مجموعة بيانات الجدول الجيولوجي المبني. يتم دمج نماذجنا بسهولة في نظام نموذجي لتوفير معالجة المعلومات وتحليلها بشكل مشترك.Translated Description (French)
Les rapports géologiques contiennent divers tableaux et peuvent offrir des données sur la teneur en éléments minéraux et des informations détaillées sur les strates. L'extraction d'informations tabulaires géologiques et sa fusion sémantique avec le texte revêtent une grande importance dans la conversion et la fusion de données géologiques non structurées en connaissances structurées pour guider l'analyse de l'intelligence cognitive dans le domaine des géosciences. Bien que les performances des outils généraux et des méthodes d'analyse de structure de tableau existantes soient limitées en raison des différentes cellules fusionnées et des en-têtes de tableau divisés en diagonale. Pour résoudre ce problème, nous proposons une nouvelle approche basée sur le modèle amélioré Mask R-CNN pour identifier et analyser les formulaires. Le réseau d'analyse de la table géologique construit dans cet article se compose de deux étapes clés : (1) Un module d'augmentation des caractéristiques des cellules (CFA) pour apprendre les caractéristiques contextuelles pour identifier les cellules de différentes tailles. (2) Une méthode d'analyse de table (GTab) pour analyser les cellules d'en-tête de table avec des lignes de séparation. Nous comparons la méthode proposée avec les méthodes d'analyse de table couramment utilisées sur notre ensemble de données de table géologique construit. Nos modèles sont facilement intégrés dans un système prototype pour fournir un traitement et une analyse conjoints de l'information.Translated Description (Spanish)
Los informes geológicos contienen varias tablas y pueden ofrecer datos sobre el contenido de elementos minerales e información detallada del estrato. La extracción de información tabular geológica y su fusión semántica con el texto es de gran importancia para convertir y fusionar datos geológicos no estructurados en conocimiento estructurado para guiar el análisis de inteligencia cognitiva en el dominio de las geociencias. Si bien el rendimiento de las herramientas generales y los métodos de análisis de estructura de tabla existentes es limitado debido a las diversas celdas fusionadas y los encabezados de tabla divididos en diagonal. Para abordar este problema, proponemos un enfoque novedoso basado en el modelo mejorado Mask R-CNN para identificar y analizar los formularios. La red de análisis de tablas geológicas construida en este documento consta de dos pasos clave: (1) un módulo de aumento de características celulares (CFA) para aprender las características contextuales para identificar células de diferentes tamaños. (2) Un método de análisis sintáctico de tabla (GTab) para analizar las celdas del encabezado de la tabla con líneas divididas. Comparamos el método propuesto con los métodos de análisis sintáctico de tablas comúnmente utilizados en nuestro conjunto de datos de tablas geológicas construidas. Nuestros modelos se integran fácilmente en un sistema prototipo para proporcionar un procesamiento y análisis conjunto de la información.Additional details
Additional titles
- Translated title (Arabic)
- فهم محتوى الجدول لتقارير التنقيب عن المعادن باستخدام التعلم العميق ومعالجة اللغة الطبيعية
- Translated title (French)
- Comprendre le contenu des tableaux pour les rapports d'exploration minérale à l'aide de l'apprentissage en profondeur et du traitement du langage naturel
- Translated title (Spanish)
- Comprensión del contenido de la tabla para informes de exploración mineral utilizando el aprendizaje profundo y el procesamiento del lenguaje natural
Identifiers
- Other
- https://openalex.org/W4324364290
- DOI
- 10.1016/j.oregeorev.2023.105383
References
- https://openalex.org/W1602846073
- https://openalex.org/W2016969189
- https://openalex.org/W2064985253
- https://openalex.org/W2105693220
- https://openalex.org/W2122865749
- https://openalex.org/W2127795553
- https://openalex.org/W2250539671
- https://openalex.org/W2517373877
- https://openalex.org/W2532651260
- https://openalex.org/W2799125718
- https://openalex.org/W2914093340
- https://openalex.org/W2921070837
- https://openalex.org/W2939592887
- https://openalex.org/W2944729560
- https://openalex.org/W2947990748
- https://openalex.org/W2964167098
- https://openalex.org/W2997222178
- https://openalex.org/W2998913931
- https://openalex.org/W2999605892
- https://openalex.org/W3034997246
- https://openalex.org/W3091011763
- https://openalex.org/W3096398130
- https://openalex.org/W3133812948
- https://openalex.org/W3201319578
- https://openalex.org/W3203177300
- https://openalex.org/W3213591530
- https://openalex.org/W4220884847
- https://openalex.org/W4294170691
- https://openalex.org/W4300546174