Published August 28, 2020 | Version v1
Publication Open

Detection and recognition of cursive text from video frames

  • 1. Bahria University

Description

Abstract Textual content appearing in videos represents an interesting index for semantic retrieval of videos (from archives), generation of alerts (live streams), as well as high level applications like opinion mining and content summarization. The key components of such systems require detection and recognition of textual content which also make the subject of our study. This paper presents a comprehensive framework for detection and recognition of textual content in video frames. More specifically, we target cursive scripts taking Urdu text as a case study. Detection of textual regions in video frames is carried out by fine-tuning deep neural networks based object detectors for the specific case of text detection. Script of the detected textual content is identified using convoluational neural networks (CNNs), while for recognition, we propose a UrduNet, a combination of CNNs and long short- term memory (LSTM) networks. A benchmark dataset containing cursive text with more than 13,000 video frame is also developed. A comprehensive series of experiments is carried out reporting an F-measure of 88.3% for detection while a recognition rate of 87%.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمثل المحتوى النصي التجريدي الذي يظهر في مقاطع الفيديو فهرسًا مثيرًا للاهتمام للاسترجاع الدلالي لمقاطع الفيديو (من الأرشيفات)، وإنشاء التنبيهات (البث المباشر)، بالإضافة إلى التطبيقات عالية المستوى مثل استخراج الآراء وتلخيص المحتوى. تتطلب المكونات الرئيسية لهذه الأنظمة الكشف والتعرف على المحتوى النصي الذي يجعل أيضًا موضوع دراستنا. تقدم هذه الورقة إطارًا شاملاً للكشف عن المحتوى النصي في إطارات الفيديو والتعرف عليه. وبشكل أكثر تحديدًا، نستهدف النصوص المخطوطة التي تأخذ النص الأردوي كدراسة حالة. يتم الكشف عن المناطق النصية في إطارات الفيديو عن طريق الضبط الدقيق لكواشف الأجسام القائمة على الشبكات العصبية العميقة للحالة المحددة للكشف عن النص. يتم تحديد نص المحتوى النصي المكتشف باستخدام الشبكات العصبية الالتفافية (CNNs)، بينما للتعرف عليه، نقترح UrduNet، وهو مزيج من شبكات CNN وشبكات الذاكرة طويلة المدى (LSTM). كما تم تطوير مجموعة بيانات مرجعية تحتوي على نص خطي مع أكثر من 13000 إطار فيديو. يتم إجراء سلسلة شاملة من التجارب للإبلاغ عن مقياس F بنسبة 88.3 ٪ للكشف بينما يبلغ معدل التعرف 87 ٪.

Translated Description (French)

Le contenu textuel abstrait apparaissant dans les vidéos représente un index intéressant pour la récupération sémantique de vidéos (à partir d'archives), la génération d'alertes (flux en direct), ainsi que des applications de haut niveau telles que l'exploration d'opinions et la synthèse de contenu. Les éléments clés de tels systèmes nécessitent la détection et la reconnaissance de contenus textuels qui font également l'objet de notre étude. Cet article présente un cadre complet pour la détection et la reconnaissance du contenu textuel dans les images vidéo. Plus précisément, nous ciblons les scripts cursifs prenant le texte ourdou comme étude de cas. La détection des régions textuelles dans les trames vidéo est effectuée en affinant les détecteurs d'objets basés sur les réseaux neuronaux profonds pour le cas spécifique de la détection de texte. Le script du contenu textuel détecté est identifié à l'aide de réseaux neuronaux convolutifs (CNN), tandis que pour la reconnaissance, nous proposons un UrduNet, une combinaison de CNN et de réseaux de mémoire à long terme (LSTM). Un ensemble de données de référence contenant du texte cursif avec plus de 13 000 images vidéo est également développé. Une série complète d'expériences est réalisée rapportant une mesure F de 88,3% pour la détection alors qu'un taux de reconnaissance de 87%.

Translated Description (Spanish)

Resumen El contenido textual que aparece en los videos representa un índice interesante para la recuperación semántica de videos (de archivos), la generación de alertas (transmisiones en vivo), así como aplicaciones de alto nivel como la minería de opinión y el resumen de contenido. Los componentes clave de dichos sistemas requieren la detección y el reconocimiento de contenidos textuales que también son objeto de nuestro estudio. Este documento presenta un marco integral para la detección y el reconocimiento de contenido textual en fotogramas de vídeo. Más específicamente, nos dirigimos a los guiones cursivos tomando el texto en urdu como caso de estudio. La detección de regiones textuales en fotogramas de vídeo se lleva a cabo mediante el ajuste fino de detectores de objetos basados en redes neuronales profundas para el caso específico de la detección de texto. El guión del contenido textual detectado se identifica utilizando redes neuronales convolucionales (CNN), mientras que para el reconocimiento, proponemos una UrduNet, una combinación de CNN y redes de memoria a largo plazo (LSTM). También se desarrolla un conjunto de datos de referencia que contiene texto cursivo con más de 13.000 fotogramas de vídeo. Se lleva a cabo una serie completa de experimentos que informan una medida F del 88,3% para la detección, mientras que una tasa de reconocimiento del 87%.

Files

s13640-020-00523-5.pdf

Files (10.0 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:f544205e08191e6508d1d6b3605f0a8c
10.0 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
الكشف عن النص المخطوط من إطارات الفيديو والتعرف عليه
Translated title (French)
Détection et reconnaissance de texte cursif à partir d'images vidéo
Translated title (Spanish)
Detección y reconocimiento de texto cursivo de fotogramas de vídeo

Identifiers

Other
https://openalex.org/W3081685650
DOI
10.1186/s13640-020-00523-5

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Pakistan

References

  • https://openalex.org/W1138884437
  • https://openalex.org/W1480234225
  • https://openalex.org/W1606246001
  • https://openalex.org/W1964797636
  • https://openalex.org/W1966956495
  • https://openalex.org/W1967140047
  • https://openalex.org/W1970246874
  • https://openalex.org/W1974975708
  • https://openalex.org/W1975453746
  • https://openalex.org/W1999497532
  • https://openalex.org/W2001056904
  • https://openalex.org/W2006408850
  • https://openalex.org/W2009444210
  • https://openalex.org/W2013360608
  • https://openalex.org/W2014286161
  • https://openalex.org/W2016533488
  • https://openalex.org/W2034708692
  • https://openalex.org/W2035729865
  • https://openalex.org/W2038230074
  • https://openalex.org/W2050889279
  • https://openalex.org/W2058178431
  • https://openalex.org/W2065042463
  • https://openalex.org/W2094634542
  • https://openalex.org/W2097117768
  • https://openalex.org/W2099306567
  • https://openalex.org/W2102372511
  • https://openalex.org/W2117539524
  • https://openalex.org/W2120165255
  • https://openalex.org/W2121979056
  • https://openalex.org/W2123931155
  • https://openalex.org/W2131163834
  • https://openalex.org/W2135231474
  • https://openalex.org/W2136167397
  • https://openalex.org/W2137827879
  • https://openalex.org/W2138326121
  • https://openalex.org/W2139435234
  • https://openalex.org/W2142082467
  • https://openalex.org/W2142380309
  • https://openalex.org/W2143453942
  • https://openalex.org/W2143842970
  • https://openalex.org/W2156711436
  • https://openalex.org/W2165401735
  • https://openalex.org/W2194187530
  • https://openalex.org/W2278889731
  • https://openalex.org/W2281716120
  • https://openalex.org/W2283312651
  • https://openalex.org/W2287185936
  • https://openalex.org/W2340583188
  • https://openalex.org/W2341629100
  • https://openalex.org/W2420921998
  • https://openalex.org/W2436394148
  • https://openalex.org/W2437236020
  • https://openalex.org/W2550687635
  • https://openalex.org/W2555961948
  • https://openalex.org/W2556339139
  • https://openalex.org/W2559655401
  • https://openalex.org/W2593196750
  • https://openalex.org/W2604272474
  • https://openalex.org/W2605076167
  • https://openalex.org/W2606783593
  • https://openalex.org/W2612065540
  • https://openalex.org/W2737491978
  • https://openalex.org/W2753236292
  • https://openalex.org/W2764038459
  • https://openalex.org/W2766381040
  • https://openalex.org/W2771892973
  • https://openalex.org/W2776923231
  • https://openalex.org/W2777652944
  • https://openalex.org/W2778932459
  • https://openalex.org/W2779253105
  • https://openalex.org/W2782230926
  • https://openalex.org/W2782396879
  • https://openalex.org/W2782566793
  • https://openalex.org/W2785557816
  • https://openalex.org/W2786847677
  • https://openalex.org/W2789848601
  • https://openalex.org/W2794227877
  • https://openalex.org/W2798492174
  • https://openalex.org/W2801556396
  • https://openalex.org/W2801783281
  • https://openalex.org/W2808136564
  • https://openalex.org/W2810217533
  • https://openalex.org/W2919115771
  • https://openalex.org/W2953472436
  • https://openalex.org/W2962759292
  • https://openalex.org/W2962986948
  • https://openalex.org/W2963233387
  • https://openalex.org/W2963908984
  • https://openalex.org/W2974317015
  • https://openalex.org/W2982132468
  • https://openalex.org/W3001592365
  • https://openalex.org/W3081685650
  • https://openalex.org/W3147744617
  • https://openalex.org/W3162013555
  • https://openalex.org/W4231464604
  • https://openalex.org/W4233597367
  • https://openalex.org/W4234552385
  • https://openalex.org/W4243062624
  • https://openalex.org/W4256346332
  • https://openalex.org/W4301409532
  • https://openalex.org/W974261621