Two Independent Teachers are Better Role Model
Creators
- 1. Huazhong University of Science and Technology
- 2. Ibb University
Description
Abstract Recent deep learning models have attracted substantial attention in infant brainanalysis. These models have performed state-of-the-art performance, such as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher). However, these models depend on an encoder-decoder structure with stacked local operators togather long-range information, and the local operators limit the efficiency and effectiveness. Besides, the MRI data contain different tissue properties (T P s) suchas T1 and T2. One major limitation of these models is that they use both dataas inputs to the segment process, i.e., the models are trained on the dataset once, and it requires much computational and memory requirements during inference. In this work, we address the above limitations by designing a new deep-learningmodel, called 3D-DenseUNet, which works as adaptable global aggregation blocksin down-sampling to solve the issue of spatial information loss. The self-attention module connects the down-sampling blocks to up-sampling blocks, and integrates the feature maps in three dimensions of spatial and channel, effectively improvingthe representation potential and discriminating ability of the model. Additionally, we propose a new method called Two Independent Teachers (2IT), that summarizes the model weights instead of label predictions. Each teacher model is trainedon different types of brain data, T1 and T2, respectively. Then, a fuse model is added to improve test accuracy and enable training with fewer parameters andlabels compared to the Temporal Ensembling method without modifying the network architecture. Empirical results demonstrate the effectiveness of the proposed method. The code is publicly available at: https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-Model
Translated Descriptions
Translated Description (Arabic)
نبذة مختصرة جذبت نماذج التعلم العميق الحديثة اهتمامًا كبيرًا في تحليل دماغ الرضع. أدت هذه النماذج أحدث أداء، مثل التقنيات شبه الخاضعة للإشراف (على سبيل المثال، التجميع الزمني، المعلم المتوسط). ومع ذلك، تعتمد هذه النماذج على بنية فك التشفير مع المشغلين المحليين المكدسين لجمع معلومات طويلة المدى، ويحد المشغلون المحليون من الكفاءة والفعالية. إلى جانب ذلك، تحتوي بيانات التصوير بالرنين المغناطيسي على خصائص أنسجة مختلفة (TPs) مثل T1 و T2. أحد القيود الرئيسية لهذه النماذج هو أنها تستخدم كلا البيانات كمدخلات لعملية المقطع، أي أن النماذج يتم تدريبها على مجموعة البيانات مرة واحدة، وتتطلب الكثير من المتطلبات الحسابية والذاكرة أثناء الاستدلال. في هذا العمل، نعالج القيود المذكورة أعلاه من خلال تصميم نموذج جديد للتعلم العميق، يسمى 3D - DenseUNet، والذي يعمل ككتل تجميع عالمية قابلة للتكيف في أخذ العينات لحل مشكلة فقدان المعلومات المكانية. تربط وحدة الانتباه الذاتي كتل أخذ العينات السفلية بكتل أخذ العينات، وتدمج خرائط الميزات في ثلاثة أبعاد للمكان والقناة، مما يحسن بشكل فعال من إمكانات التمثيل والقدرة التمييزية للنموذج. بالإضافة إلى ذلك، نقترح طريقة جديدة تسمى معلمين مستقلين (2IT)، تلخص أوزان النموذج بدلاً من تنبؤات التسمية. يتم تدريب كل نموذج معلم على أنواع مختلفة من بيانات الدماغ، T1 و T2، على التوالي. ثم يضاف نموذج الصمامات لتحسين دقة الاختبار وتمكين التدريب مع عدد أقل من المعلمات والتسميات مقارنة بطريقة التجميع الزمني دون تعديل بنية الشبكة. تُظهر النتائج التجريبية فعالية الطريقة المقترحة. الرمز متاح للجمهور على: https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-ModelTranslated Description (English)
Abstract Recent deep learning models have attracted substantial attention in infant brain analysis. These models have performed state-of-the-art performance, such as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher). However, these models depend on an encoder-decoder structure with stacked local operators togather long-range information, and the local operators limit the efficiency and effectiveness. Besides, the MRI data contain different tissue properties (T P s) suchas T1 and T2. One major limitation of these models is that they use both dataas inputs to the segment process, i.e., the models are trained on the dataset once, and it requires much computational and memory requirements during inference. In this work, we address the above limitations by designing a new deep-learning model, called 3D-DenseUNet, which works as adaptable global aggregation blocks in down-sampling to solve the issue of spatial information loss. The self-attention module connects the down-sampling blocks to up-sampling blocks, and integrates the feature maps in three dimensions of spatial and channel, effectively improving the representation potential and discriminating ability of the model. Additionally, we propose a new method called Two Independent Teachers (2IT), that summarizes the model weights instead of label predictions. Each teacher model is trained on different types of brain data, T1 and T2, respectively. Then, a fuse model is added to improve test accuracy and enable training with fewer parameters andlabels compared to the Temporal Ensembling method without modifying the network architecture. Empirical results demonstrate the effectiveness of the proposed method. The code is publicly available at: https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-ModelTranslated Description (French)
Résumé Les modèles récents d'apprentissage profond ont attiré une attention considérable dans l'analyse du cerveau du nourrisson. Ces modèles ont réalisé des performances de pointe, telles que des techniques semi-supervisées (par exemple, l'assemblage temporel, l'enseignant moyen). Cependant, ces modèles dépendent d'une structure encodeur-décodeur avec des opérateurs locaux empilés pour recueillir des informations à longue portée, et les opérateurs locaux limitent l'efficacité et l'efficience. En outre, les données d'IRM contiennent différentes propriétés tissulaires (T P s) telles que T1 et T2. Une limitation majeure de ces modèles est qu'ils utilisent à la fois des entrées de données pour le processus de segment, c'est-à-dire que les modèles sont formés sur l'ensemble de données une fois, et cela nécessite beaucoup d'exigences de calcul et de mémoire pendant l'inférence. Dans ce travail, nous abordons les limitations ci-dessus en concevant un nouveau modèle d'apprentissage profond, appelé 3D-DenseUNet, qui fonctionne comme des blocs d'agrégation globaux adaptables dans le sous-échantillonnage pour résoudre le problème de la perte d'informations spatiales. Le module d'auto-attention connecte les blocs de sous-échantillonnage aux blocs de suréchantillonnage, et intègre les cartes de caractéristiques en trois dimensions de l'espace et du canal, améliorant efficacement le potentiel de représentation et la capacité de discrimination du modèle. De plus, nous proposons une nouvelle méthode appelée Two Independent Teachers (2IT), qui résume les poids du modèle au lieu des prédictions des étiquettes. Chaque modèle d'enseignant est formé sur différents types de données cérébrales, T1 et T2, respectivement. Ensuite, un modèle de fusible est ajouté pour améliorer la précision du test et permettre un entraînement avec moins de paramètres et d'étiquettes par rapport à la méthode d'assemblage temporel sans modifier l'architecture du réseau. Les résultats empiriques démontrent l'efficacité de la méthode proposée. Le code est accessible au public sur : https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-ModelTranslated Description (Spanish)
Resumen Los modelos recientes de aprendizaje profundo han atraído una atención sustancial en el análisis del cerebro infantil. Estos modelos han realizado un rendimiento de vanguardia, como técnicas semisupervisadas (por ejemplo, ensamblaje temporal, maestro medio). Sin embargo, estos modelos dependen de una estructura de codificador-decodificador con operadores locales apilados para recopilar información de largo alcance, y los operadores locales limitan la eficiencia y la eficacia. Además, los datos de MRI contienen diferentes propiedades tisulares (T P s) como T1 y T2. Una limitación importante de estos modelos es que utilizan ambos datos como entradas al proceso del segmento, es decir, los modelos se entrenan en el conjunto de datos una vez, y requiere muchos requisitos computacionales y de memoria durante la inferencia. En este trabajo, abordamos las limitaciones anteriores mediante el diseño de un nuevo modelo de aprendizaje profundo, llamado 3D-DenseUNet, que funciona como bloques de agregación global adaptables en el muestreo descendente para resolver el problema de la pérdida de información espacial. El módulo de auto-atención conecta los bloques de submuestreo a los bloques de submuestreo, e integra los mapas de características en tres dimensiones de espacio y canal, mejorando efectivamente el potencial de representación y la capacidad de discriminación del modelo. Además, proponemos un nuevo método llamado Two Independent Teachers (2IT), que resume los pesos del modelo en lugar de las predicciones de la etiqueta. Cada modelo docente está entrenado en diferentes tipos de datos cerebrales, T1 y T2, respectivamente. Luego, se agrega un modelo de fusible para mejorar la precisión de la prueba y permitir el entrenamiento con menos parámetros y etiquetas en comparación con el método de Ensamblaje Temporal sin modificar la arquitectura de la red. Los resultados empíricos demuestran la eficacia del método propuesto. El código está disponible públicamente en: https://github.com/AfifaKhaled/Two-Independent-Teachers-are-Better-Role-ModelFiles
latest.pdf.pdf
Files
(590.3 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:be8a5e876efaf7b015162bca6ef5440f
|
590.3 kB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- معلمان مستقلان هما قدوة أفضل
- Translated title (English)
- Two Independent Teachers are Better Role Model
- Translated title (French)
- Deux enseignants indépendants sont un meilleur modèle
- Translated title (Spanish)
- Dos maestros independientes son un mejor modelo a seguir
Identifiers
- Other
- https://openalex.org/W4384525668
- DOI
- 10.21203/rs.3.rs-3152858/v1