HARNet in deep learning approach—a systematic survey
Creators
- 1. SRM Institute of Science and Technology
- 2. St. Peter's Institute of Higher Education and Research
- 3. SCMS Group of Educational Institutions
- 4. Koneru Lakshmaiah Education Foundation
- 5. Vellore Institute of Technology University
- 6. King Saud University
- 7. Hawassa University
Description
Abstract A comprehensive examination of human action recognition (HAR) methodologies situated at the convergence of deep learning and computer vision is the subject of this article. We examine the progression from handcrafted feature-based approaches to end-to-end learning, with a particular focus on the significance of large-scale datasets. By classifying research paradigms, such as temporal modelling and spatial features, our proposed taxonomy illuminates the merits and drawbacks of each. We specifically present HARNet, an architecture for Multi-Model Deep Learning that integrates recurrent and convolutional neural networks while utilizing attention mechanisms to improve accuracy and robustness. The VideoMAE v2 method ( https://github.com/OpenGVLab/VideoMAEv2 ) has been utilized as a case study to illustrate practical implementations and obstacles. For researchers and practitioners interested in gaining a comprehensive understanding of the most recent advancements in HAR as they relate to computer vision and deep learning, this survey is an invaluable resource.
Translated Descriptions
Translated Description (Arabic)
ملخص الدراسة الشاملة لمنهجيات التعرف على العمل البشري (HAR) الموجودة عند التقارب بين التعلم العميق ورؤية الكمبيوتر هي موضوع هذه المقالة. ندرس التقدم من النهج القائمة على الميزات المصنوعة يدويًا إلى التعلم الشامل، مع التركيز بشكل خاص على أهمية مجموعات البيانات واسعة النطاق. من خلال تصنيف نماذج البحث، مثل النمذجة الزمنية والسمات المكانية، يضيء تصنيفنا المقترح مزايا وعيوب كل منها. نقدم على وجه التحديد HARNet، وهي بنية للتعلم العميق متعدد النماذج تدمج الشبكات العصبية المتكررة والتلافيفية مع استخدام آليات الانتباه لتحسين الدقة والمتانة. تم استخدام طريقة VideoMAE v2 (https://github.com/OpenGVLab/VideoMAEv2) كدراسة حالة لتوضيح التطبيقات العملية والعقبات. بالنسبة للباحثين والممارسين المهتمين باكتساب فهم شامل لأحدث التطورات في HAR من حيث صلتها برؤية الكمبيوتر والتعلم العميق، يعد هذا الاستطلاع موردًا لا يقدر بثمن.Translated Description (French)
Résumé Un examen complet des méthodologies de reconnaissance de l'action humaine (HAR) situées à la convergence de l'apprentissage profond et de la vision par ordinateur fait l'objet de cet article. Nous examinons la progression des approches basées sur les fonctionnalités artisanales vers l'apprentissage de bout en bout, en mettant un accent particulier sur l'importance des ensembles de données à grande échelle. En classant les paradigmes de recherche, tels que la modélisation temporelle et les caractéristiques spatiales, notre taxonomie proposée éclaire les mérites et les inconvénients de chacun. Nous présentons spécifiquement HARNet, une architecture pour l'apprentissage profond multimodèle qui intègre des réseaux neuronaux récurrents et convolutionnels tout en utilisant des mécanismes d'attention pour améliorer la précision et la robustesse. La méthode VideoMAE v2 (https://github.com/OpenGVLab/VideoMAEv2 ) a été utilisée comme étude de cas pour illustrer les implémentations pratiques et les obstacles. Pour les chercheurs et les praticiens intéressés à acquérir une compréhension globale des dernières avancées en matière de HAR en ce qui concerne la vision par ordinateur et l'apprentissage profond, cette enquête est une ressource inestimable.Translated Description (Spanish)
Resumen El tema de este artículo es un examen exhaustivo de las metodologías de reconocimiento de la acción humana (HAR) situadas en la convergencia del aprendizaje profundo y la visión por ordenador. Examinamos la progresión de los enfoques basados en funciones artesanales al aprendizaje de extremo a extremo, con un enfoque particular en la importancia de los conjuntos de datos a gran escala. Al clasificar los paradigmas de investigación, como el modelado temporal y las características espaciales, nuestra taxonomía propuesta ilumina los méritos y los inconvenientes de cada uno. Presentamos específicamente HARNet, una arquitectura para el aprendizaje profundo multimodelo que integra redes neuronales recurrentes y convolucionales al tiempo que utiliza mecanismos de atención para mejorar la precisión y la robustez. El método VideoMAE v2 ( https://github.com/OpenGVLab/VideoMAEv2 ) se ha utilizado como estudio de caso para ilustrar implementaciones prácticas y obstáculos. Para los investigadores y profesionales interesados en obtener una comprensión integral de los avances más recientes en HAR en relación con la visión artificial y el aprendizaje profundo, esta encuesta es un recurso invaluable.Files
s41598-024-58074-y.pdf.pdf
Files
(2.4 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:e623d2bfa3d78a1a05c95a1a35ebfd93
|
2.4 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- HARNet في نهج التعلم العميق - مسح منهجي
- Translated title (French)
- HARNet dans l'approche d'apprentissage en profondeur - une enquête systématique
- Translated title (Spanish)
- HARNet en el enfoque de aprendizaje profundo: una encuesta sistemática
Identifiers
- Other
- https://openalex.org/W4394688665
- DOI
- 10.1038/s41598-024-58074-y
References
- https://openalex.org/W1522734439
- https://openalex.org/W1947481528
- https://openalex.org/W1983364832
- https://openalex.org/W2016053056
- https://openalex.org/W2105101328
- https://openalex.org/W2156222070
- https://openalex.org/W2194775991
- https://openalex.org/W2507009361
- https://openalex.org/W2530966705
- https://openalex.org/W2559085405
- https://openalex.org/W2612707971
- https://openalex.org/W2746726611
- https://openalex.org/W2939717009
- https://openalex.org/W2939995398
- https://openalex.org/W2952587893
- https://openalex.org/W2962934715
- https://openalex.org/W2963037989
- https://openalex.org/W2963150697
- https://openalex.org/W2963524571
- https://openalex.org/W2990503944
- https://openalex.org/W4206780588
- https://openalex.org/W4246082463
- https://openalex.org/W4320919663