First steps in automatic summarization of transcription factor properties for RegulonDB: classification of sentences about structural domains and regulated processes
Creators
- 1. Universidad Nacional Autónoma de México
Description
The RegulonDB (http://regulondb.ccg.unam.mx) team generates manually elaborated summaries about transcription factors (TFs) of Escherichia coli K-12. These texts involve considerable effort, since they summarize a diverse collection of structural, mechanistic and physiological properties of TFs and, due to constant new research, ideally they require frequent updating. In natural language processing, several techniques for automatic summarization have been developed. Therefore, our proposal is to extract, by using those techniques, relevant information about TFs for assisting the curation and elaboration of the manual summaries. Here, we present the results of the automatic classification of sentences about the biological processes regulated by a TF and the information about the structural domains constituting the TF. We tested two classical classifiers, Naïve Bayes and Support Vector Machines (SVMs), with the sentences of the manual summaries as training data. The best classifier was an SVM employing lexical, grammatical, and terminological features (F-score, 0.8689). The sentences of articles analyzed by this classifier were frequently true, but many sentences were set aside (high precision with low recall); consequently, some improvement is required. Nevertheless, automatic summaries of complete articles about five TFs, generated with this classifier, included much of the relevant information of the summaries written by curators (high ROUGE-1 recall). In fact, a manual comparison confirmed that the best summary encompassed 100% of the relevant information. Hence, our empirical results suggest that our proposal is promising for covering more properties of TFs to generate suggested sentences with relevant information to help the curation work without losing quality.
Translated Descriptions
Translated Description (Arabic)
يقوم فريق RegulonDB (http://regulondb.ccg.unam.mx) بإنشاء ملخصات مفصلة يدويًا حول عوامل النسخ (TFs) للإشريكية القولونية K -12. تنطوي هذه النصوص على جهد كبير، لأنها تلخص مجموعة متنوعة من الخصائص الهيكلية والميكانيكية والفسيولوجية لـ TFs، وبسبب البحث الجديد المستمر، فإنها تتطلب تحديثًا متكررًا. في معالجة اللغة الطبيعية، تم تطوير العديد من تقنيات التلخيص التلقائي. لذلك، فإن اقتراحنا هو استخراج، باستخدام هذه التقنيات، المعلومات ذات الصلة حول TFs للمساعدة في تنظيم الملخصات اليدوية وإعدادها. هنا، نقدم نتائج التصنيف التلقائي للجمل حول العمليات البيولوجية التي ينظمها TF والمعلومات حول المجالات الهيكلية التي تشكل TF. اختبرنا اثنين من المصنفات الكلاسيكية، Naïve Bayes و Support Vector Machines (SVMs)، مع جمل الملخصات اليدوية كبيانات تدريب. كان أفضل مصنف هو SVM الذي يستخدم ميزات معجمية ونحوية ومصطلحية (F - score، 0.8689). كانت جمل المقالات التي حللها هذا المصنف صحيحة في كثير من الأحيان، ولكن تم وضع العديد من الجمل جانباً (دقة عالية مع تذكر منخفض) ؛ وبالتالي، هناك حاجة إلى بعض التحسين. ومع ذلك، تضمنت الملخصات التلقائية للمقالات الكاملة حول خمسة TFs، التي تم إنشاؤها باستخدام هذا المصنف، الكثير من المعلومات ذات الصلة بالملخصات التي كتبها القيمون (استدعاء ROUGE -1 العالي). في الواقع، أكدت مقارنة يدوية أن أفضل ملخص يشمل 100 ٪ من المعلومات ذات الصلة. وبالتالي، تشير نتائجنا التجريبية إلى أن اقتراحنا واعد لتغطية المزيد من خصائص TFs لتوليد جمل مقترحة بمعلومات ذات صلة للمساعدة في عمل التنظيم دون فقدان الجودة.Translated Description (French)
L'équipe de RegulonDB (http://regulondb.ccg.unam.mx) génère manuellement des résumés élaborés sur les facteurs de transcription (FT) d'Escherichia coli K-12. Ces textes impliquent des efforts considérables, car ils résument une collection diversifiée de propriétés structurelles, mécanistiques et physiologiques des FT et, en raison de nouvelles recherches constantes, ils nécessitent idéalement une mise à jour fréquente. Dans le traitement du langage naturel, plusieurs techniques de synthèse automatique ont été développées. Par conséquent, notre proposition est d'extraire, en utilisant ces techniques, des informations pertinentes sur les FT pour aider à la conservation et à l'élaboration des résumés manuels. Nous présentons ici les résultats de la classification automatique des phrases sur les processus biologiques régulés par un TF et les informations sur les domaines structurels constituant le TF. Nous avons testé deux classificateurs classiques, Naïve Bayes et Support Vector Machines (SVM), avec les phrases des résumés manuels comme données d'entraînement. Le meilleur classificateur était un SVM utilisant des caractéristiques lexicales, grammaticales et terminologiques (score F, 0,8689). Les phrases des articles analysés par ce classificateur étaient souvent vraies, mais de nombreuses phrases ont été mises de côté (haute précision avec faible rappel) ; par conséquent, une certaine amélioration est nécessaire. Néanmoins, les résumés automatiques d'articles complets sur cinq TF, générés avec ce classificateur, comprenaient une grande partie des informations pertinentes des résumés rédigés par les conservateurs (rappel élevé de ROUGE-1). En fait, une comparaison manuelle a confirmé que le meilleur résumé englobait 100 % des informations pertinentes. Par conséquent, nos résultats empiriques suggèrent que notre proposition est prometteuse pour couvrir plus de propriétés des FT afin de générer des phrases suggérées avec des informations pertinentes pour aider le travail de curation sans perdre en qualité.Translated Description (Spanish)
El equipo de RegulonDB (http://regulondb.ccg.unam.mx) genera resúmenes elaborados manualmente sobre los factores de transcripción (TF) de Escherichia coli K-12. Estos textos suponen un esfuerzo considerable, ya que resumen una colección diversa de propiedades estructurales, mecanicistas y fisiológicas de los FT y, debido a las constantes nuevas investigaciones, lo ideal es que requieran una actualización frecuente. En el procesamiento del lenguaje natural, se han desarrollado varias técnicas para el resumen automático. Por lo tanto, nuestra propuesta es extraer, mediante el uso de esas técnicas, información relevante sobre los FT para ayudar a la curación y elaboración de los resúmenes manuales. Aquí, presentamos los resultados de la clasificación automática de oraciones sobre los procesos biológicos regulados por un FT y la información sobre los dominios estructurales que constituyen el FT. Probamos dos clasificadores clásicos, Naïve Bayes y Support Vector Machines (SVM), con las oraciones de los resúmenes manuales como datos de entrenamiento. El mejor clasificador fue una SVM que empleaba características léxicas, gramaticales y terminológicas (puntuación F, 0,8689). Las oraciones de los artículos analizados por este clasificador eran con frecuencia ciertas, pero se dejaron de lado muchas oraciones (alta precisión con baja memoria); en consecuencia, se requiere cierta mejora. Sin embargo, los resúmenes automáticos de artículos completos sobre cinco TF, generados con este clasificador, incluyeron gran parte de la información relevante de los resúmenes escritos por los curadores (alta memoria ROUGE-1). De hecho, una comparación manual confirmó que el mejor resumen abarcaba el 100% de la información relevante. Por lo tanto, nuestros resultados empíricos sugieren que nuestra propuesta es prometedora para cubrir más propiedades de los TF para generar oraciones sugeridas con información relevante para ayudar al trabajo de curación sin perder calidad.Files
      
        bax070.pdf.pdf
        
      
    
    
      
        Files
         (93 Bytes)
        
      
    
    | Name | Size | Download all | 
|---|---|---|
| md5:b0d506893d4802090edf1644f5f082cd | 93 Bytes | Preview Download | 
Additional details
Additional titles
- Translated title (Arabic)
- الخطوات الأولى في التلخيص التلقائي لخصائص عامل النسخ لـ RegulonDB: تصنيف الجمل حول المجالات الهيكلية والعمليات المنظمة
- Translated title (French)
- Premières étapes dans la synthèse automatique des propriétés du facteur de transcription pour RegulonDB : classification des phrases sur les domaines structurels et les processus réglementés
- Translated title (Spanish)
- Primeros pasos en el resumen automático de las propiedades del factor de transcripción para RegulonDB: clasificación de oraciones sobre dominios estructurales y procesos regulados
Identifiers
- Other
- https://openalex.org/W2787306049
- DOI
- 10.1093/database/bax070
            
              References
            
          
        - https://openalex.org/W1480376833
- https://openalex.org/W159977110
- https://openalex.org/W1964940342
- https://openalex.org/W2035682999
- https://openalex.org/W2048207804
- https://openalex.org/W2062908157
- https://openalex.org/W2070072684
- https://openalex.org/W2087227067
- https://openalex.org/W2100858341
- https://openalex.org/W2129522786
- https://openalex.org/W2134967412
- https://openalex.org/W2144211451
- https://openalex.org/W2147411155
- https://openalex.org/W2147994374
- https://openalex.org/W2164461702
- https://openalex.org/W2165612380
- https://openalex.org/W2170806980
- https://openalex.org/W2232370058
- https://openalex.org/W3098800931
- https://openalex.org/W4213009331
- https://openalex.org/W4239510810