Toward Effective Semi-supervised Node Classification with Hybrid Curriculum Pseudo-labeling
- 1. University of California, Los Angeles
- 2. Peking University
- 3. Nankai University
Description
Semi-supervised node classification is a crucial challenge in relational data mining and has attracted increasing interest in research on graph neural networks (GNNs). However, previous approaches merely utilize labeled nodes to supervise the overall optimization, but fail to sufficiently explore the information of their underlying label distribution. Even worse, they often overlook the robustness of models, which may cause instability of network outputs to random perturbations. To address the aforementioned shortcomings, we develop a novel framework termed Hybrid Curriculum Pseudo-Labeling (HCPL) for efficient semi-supervised node classification. Technically, HCPL iteratively annotates unlabeled nodes by training a GNN model on the labeled samples and any previously pseudo-labeled samples, and repeatedly conducts this process. To improve the model robustness, we introduce a hybrid pseudo-labeling strategy that incorporates both prediction confidence and uncertainty under random perturbations, therefore mitigating the influence of erroneous pseudo-labels. Finally, we leverage the idea of curriculum learning to start from annotating easy samples, and gradually explore hard samples as the iteration grows. Extensive experiments on a number of benchmarks demonstrate that our HCPL beats various state-of-the-art baselines in diverse settings.
Translated Descriptions
Translated Description (Arabic)
يعد تصنيف العقدة شبه الخاضع للإشراف تحديًا حاسمًا في استخراج البيانات العلائقية وقد جذب اهتمامًا متزايدًا بالبحث في الشبكات العصبية للرسم البياني (GNNs). ومع ذلك، فإن الأساليب السابقة تستخدم فقط العقد المسماة للإشراف على التحسين العام، ولكنها تفشل في استكشاف معلومات توزيع الملصقات الأساسية بشكل كافٍ. والأسوأ من ذلك، أنها غالبًا ما تتجاهل متانة النماذج، مما قد يتسبب في عدم استقرار مخرجات الشبكة إلى اضطرابات عشوائية. لمعالجة أوجه القصور المذكورة أعلاه، نقوم بتطوير إطار عمل جديد يسمى التصنيف الزائف للمنهج الهجين (HCPL) لتصنيف العقدة شبه الخاضع للإشراف بكفاءة. من الناحية الفنية، تشرح HCPL بشكل متكرر العقد غير المسماة من خلال تدريب نموذج GNN على العينات المسماة وأي عينات سابقة تحمل علامات زائفة، وتجري هذه العملية بشكل متكرر. لتحسين متانة النموذج، نقدم استراتيجية تسمية زائفة هجينة تتضمن كل من الثقة في التنبؤ وعدم اليقين في ظل الاضطرابات العشوائية، وبالتالي التخفيف من تأثير التسميات الزائفة الخاطئة. أخيرًا، نستفيد من فكرة تعلم المناهج للبدء من شرح العينات السهلة، واستكشاف العينات الصعبة تدريجيًا مع نمو التكرار. تثبت التجارب المكثفة على عدد من المعايير أن HCPL الخاص بنا يتفوق على مختلف خطوط الأساس الحديثة في بيئات متنوعة.Translated Description (French)
La classification des nœuds semi-supervisée est un défi crucial dans l'exploration de données relationnelles et a suscité un intérêt croissant pour la recherche sur les réseaux neuronaux de graphes (GNN). Cependant, les approches précédentes utilisent simplement des nœuds étiquetés pour superviser l'optimisation globale, mais n'explorent pas suffisamment les informations de leur distribution d'étiquettes sous-jacente. Pire encore, ils négligent souvent la robustesse des modèles, ce qui peut entraîner une instabilité des sorties du réseau à des perturbations aléatoires. Pour remédier aux lacunes susmentionnées, nous développons un nouveau cadre appelé Pseudo-étiquetage de curriculum hybride (HCPL) pour une classification efficace des nœuds semi-supervisés. Techniquement, HCPL annote de manière itérative les nœuds non étiquetés en formant un modèle GNN sur les échantillons étiquetés et tous les échantillons précédemment pseudo-étiquetés, et effectue ce processus à plusieurs reprises. Pour améliorer la robustesse du modèle, nous introduisons une stratégie hybride de pseudo-étiquetage qui intègre à la fois la confiance prédictive et l'incertitude sous des perturbations aléatoires, atténuant ainsi l'influence de pseudo-étiquettes erronées. Enfin, nous tirons parti de l'idée de l'apprentissage du curriculum pour commencer par annoter des échantillons faciles et explorer progressivement des échantillons durs au fur et à mesure que l'itération se développe. Des expériences approfondies sur un certain nombre de points de référence démontrent que notre HCPL dépasse diverses lignes de base de pointe dans divers contextes.Translated Description (Spanish)
La clasificación de nodos semi-supervisada es un desafío crucial en la minería de datos relacionales y ha atraído un interés creciente en la investigación sobre redes neuronales gráficas (GNN). Sin embargo, los enfoques anteriores simplemente utilizan nodos etiquetados para supervisar la optimización general, pero no exploran suficientemente la información de su distribución de etiquetas subyacente. Peor aún, a menudo pasan por alto la solidez de los modelos, lo que puede causar inestabilidad de las salidas de la red a perturbaciones aleatorias. Para abordar las deficiencias mencionadas anteriormente, desarrollamos un marco novedoso denominado pseudoetiquetado curricular híbrido (HCPL) para una clasificación de nodos semisupervisada eficiente. Técnicamente, HCPL anota iterativamente los nodos no etiquetados al entrenar un modelo GNN en las muestras etiquetadas y cualquier muestra previamente pseudoetiquetada, y realiza repetidamente este proceso. Para mejorar la robustez del modelo, introducimos una estrategia híbrida de pseudoetiquetado que incorpora tanto la confianza de predicción como la incertidumbre bajo perturbaciones aleatorias, mitigando así la influencia de pseudoetiquetas erróneas. Finalmente, aprovechamos la idea del aprendizaje curricular para comenzar con la anotación de muestras fáciles y explorar gradualmente las muestras duras a medida que crece la iteración. Amplios experimentos en una serie de puntos de referencia demuestran que nuestro HCPL supera varias líneas de base de vanguardia en diversos entornos.Files
3626528.pdf
Files
(1.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:1ef96dfb48121bd9be5ac1f83acdab7a
|
1.3 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- نحو تصنيف عقدة فعال شبه خاضع للإشراف مع وضع ملصقات زائفة على المناهج الهجينة
- Translated title (French)
- Vers une classification efficace des nœuds semi-supervisés avec pseudo-étiquetage du curriculum hybride
- Translated title (Spanish)
- Hacia una Clasificación de Nodos Semi-supervisada Efectiva con Pseudoetiquetado Curricular Híbrido
Identifiers
- Other
- https://openalex.org/W4387343643
- DOI
- 10.1145/3626528
References
- https://openalex.org/W1903001680
- https://openalex.org/W2035331133
- https://openalex.org/W2142498761
- https://openalex.org/W2153959628
- https://openalex.org/W2296073425
- https://openalex.org/W2323738766
- https://openalex.org/W2345837149
- https://openalex.org/W2766987866
- https://openalex.org/W2897135094
- https://openalex.org/W2963102641
- https://openalex.org/W2984353870
- https://openalex.org/W2997701990
- https://openalex.org/W3001437801
- https://openalex.org/W3080294851
- https://openalex.org/W3089299640
- https://openalex.org/W3100993589
- https://openalex.org/W3141262995
- https://openalex.org/W3143519163
- https://openalex.org/W3158371160
- https://openalex.org/W3160381762
- https://openalex.org/W3160516685
- https://openalex.org/W3170895581
- https://openalex.org/W3172828232
- https://openalex.org/W3176943960
- https://openalex.org/W3210131246
- https://openalex.org/W3217358304
- https://openalex.org/W4205645455
- https://openalex.org/W4205883350
- https://openalex.org/W4210257598
- https://openalex.org/W4210382416
- https://openalex.org/W4210842377
- https://openalex.org/W4212805305
- https://openalex.org/W4221101570
- https://openalex.org/W4281563651
- https://openalex.org/W4283798273
- https://openalex.org/W4293208537
- https://openalex.org/W4365806527
- https://openalex.org/W4366198236
- https://openalex.org/W4378696994
- https://openalex.org/W4382239955
- https://openalex.org/W4386644564