Published November 16, 2019 | Version v1
Publication Open

Genome3D: integrating a collaborative data pipeline to expand the depth and breadth of consensus protein structure annotation

  • 1. University College London
  • 2. Institute of Structural and Molecular Biology
  • 3. MRC Laboratory of Molecular Biology
  • 4. University of Cambridge
  • 5. The Francis Crick Institute
  • 6. European Bioinformatics Institute
  • 7. Wellcome Trust
  • 8. Imperial College London
  • 9. National University of Malaysia

Description

Abstract Genome3D (https://www.genome3d.eu) is a freely available resource that provides consensus structural annotations for representative protein sequences taken from a selection of model organisms. Since the last NAR update in 2015, the method of data submission has been overhauled, with annotations now being 'pushed' to the database via an API. As a result, contributing groups are now able to manage their own structural annotations, making the resource more flexible and maintainable. The new submission protocol brings a number of additional benefits including: providing instant validation of data and avoiding the requirement to synchronise releases between resources. It also makes it possible to implement the submission of these structural annotations as an automated part of existing internal workflows. In turn, these improvements facilitate Genome3D being opened up to new prediction algorithms and groups. For the latest release of Genome3D (v2.1), the underlying dataset of sequences used as prediction targets has been updated using the latest reference proteomes available in UniProtKB. A number of new reference proteomes have also been added of particular interest to the wider scientific community: cow, pig, wheat and mycobacterium tuberculosis. These additions, along with improvements to the underlying predictions from contributing resources, has ensured that the number of annotations in Genome3D has nearly doubled since the last NAR update article. The new API has also been used to facilitate the dissemination of Genome3D data into InterPro, thereby widening the visibility of both the annotation data and annotation algorithms.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

ملخص Genome3D (https://www.genome3d.eu) هو مورد متاح مجانًا يوفر تعليقات توضيحية هيكلية بتوافق الآراء لتسلسلات البروتين التمثيلية المأخوذة من مجموعة مختارة من الكائنات الحية النموذجية. منذ آخر تحديث لـ NAR في عام 2015، تم إصلاح طريقة تقديم البيانات، مع "دفع" التعليقات التوضيحية الآن إلى قاعدة البيانات عبر واجهة برمجة التطبيقات. ونتيجة لذلك، أصبحت المجموعات المساهمة الآن قادرة على إدارة الشروح الهيكلية الخاصة بها، مما يجعل المورد أكثر مرونة وقابلية للصيانة. يجلب بروتوكول التقديم الجديد عددًا من الفوائد الإضافية بما في ذلك: توفير التحقق الفوري من صحة البيانات وتجنب متطلبات مزامنة الإصدارات بين الموارد. كما أنه يجعل من الممكن تنفيذ تقديم هذه التعليقات التوضيحية الهيكلية كجزء آلي من سير العمل الداخلي الحالي. في المقابل، تسهل هذه التحسينات فتح Genome3D أمام خوارزميات ومجموعات تنبؤ جديدة. بالنسبة للإصدار الأخير من Genome3D (الإصدار 2.1)، تم تحديث مجموعة البيانات الأساسية للتسلسلات المستخدمة كأهداف للتنبؤ باستخدام أحدث البروتينات المرجعية المتاحة في UniProtKB. كما تمت إضافة عدد من البروتينات المرجعية الجديدة ذات الأهمية الخاصة للمجتمع العلمي الأوسع: الأبقار والخنازير والقمح والمتفطرة السلية. وقد ضمنت هذه الإضافات، إلى جانب التحسينات على التنبؤات الأساسية من الموارد المساهمة، أن عدد التعليقات التوضيحية في Genome3D قد تضاعف تقريبًا منذ آخر مقالة لتحديث NAR. كما تم استخدام واجهة برمجة التطبيقات الجديدة لتسهيل نشر بيانات Genome3D في InterPro، وبالتالي توسيع رؤية كل من بيانات التعليقات التوضيحية وخوارزميات التعليقات التوضيحية.

Translated Description (French)

Abstract Genome3D (https://www.genome3d.eu) est une ressource disponible gratuitement qui fournit des annotations structurelles consensuelles pour des séquences protéiques représentatives tirées d'une sélection d'organismes modèles. Depuis la dernière mise à jour du NAR en 2015, la méthode de soumission des données a été révisée, les annotations étant désormais « poussées » vers la base de données via une API. En conséquence, les groupes contributeurs sont désormais en mesure de gérer leurs propres annotations structurelles, ce qui rend la ressource plus flexible et plus maintenable. Le nouveau protocole de soumission apporte un certain nombre d'avantages supplémentaires, notamment : fournir une validation instantanée des données et éviter l'obligation de synchroniser les versions entre les ressources. Il permet également de mettre en œuvre la soumission de ces annotations structurelles en tant que partie automatisée des flux de travail internes existants. À leur tour, ces améliorations facilitent l'ouverture de Genome3D à de nouveaux algorithmes et groupes de prédiction. Pour la dernière version de Genome3D (v2.1), l'ensemble de données sous-jacent des séquences utilisées comme cibles de prédiction a été mis à jour à l'aide des derniers protéomes de référence disponibles dans UniProtKB. Un certain nombre de nouveaux protéomes de référence ont également été ajoutés et présentent un intérêt particulier pour la communauté scientifique au sens large : la vache, le porc, le blé et la mycobactérie tuberculosis. Ces ajouts, ainsi que les améliorations apportées aux prédictions sous-jacentes à partir des ressources contributives, ont permis de doubler le nombre d'annotations dans Genome3D depuis le dernier article de mise à jour du NAR. La nouvelle API a également été utilisée pour faciliter la diffusion des données de Genome3D dans InterPro, élargissant ainsi la visibilité des données d'annotation et des algorithmes d'annotation.

Translated Description (Spanish)

Abstract Genome3D (https://www.genome3d.eu) es un recurso de libre acceso que proporciona anotaciones estructurales de consenso para secuencias de proteínas representativas tomadas de una selección de organismos modelo. Desde la última actualización de NAR en 2015, el método de envío de datos se ha revisado, y las anotaciones ahora se "envían" a la base de datos a través de una API. Como resultado, los grupos contribuyentes ahora pueden administrar sus propias anotaciones estructurales, lo que hace que el recurso sea más flexible y mantenible. El nuevo protocolo de envío aporta una serie de beneficios adicionales que incluyen: proporcionar una validación instantánea de los datos y evitar el requisito de sincronizar las versiones entre los recursos. También permite implementar la presentación de estas anotaciones estructurales como parte automatizada de los flujos de trabajo internos existentes. A su vez, estas mejoras facilitan que Genome3D se abra a nuevos algoritmos y grupos de predicción. Para la última versión de Genome3D (v2.1), el conjunto de datos subyacente de secuencias utilizadas como objetivos de predicción se ha actualizado utilizando los últimos proteomas de referencia disponibles en UniProtKB. También se han añadido una serie de nuevos proteomas de referencia de particular interés para la comunidad científica en general: vaca, cerdo, trigo y micobacteria tuberculosis. Estas adiciones, junto con las mejoras en las predicciones subyacentes de los recursos aportados, han asegurado que el número de anotaciones en Genome3D casi se haya duplicado desde el último artículo de actualización de NAR. La nueva API también se ha utilizado para facilitar la difusión de los datos de Genome3D en InterPro, ampliando así la visibilidad tanto de los datos de anotación como de los algoritmos de anotación.

Files

gkz967.pdf.pdf

Files (93 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:b0d506893d4802090edf1644f5f082cd
93 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
Genome3D: دمج خط أنابيب بيانات تعاوني لتوسيع عمق واتساع التعليق التوضيحي لهيكل البروتين الإجماعي
Translated title (French)
Genome3D : intégration d'un pipeline de données collaboratif pour élargir la profondeur et l'étendue de l'annotation de la structure des protéines consensus
Translated title (Spanish)
Genome3D: integración de un canal de datos colaborativo para ampliar la profundidad y la amplitud de la anotación de la estructura de proteínas de consenso

Identifiers

Other
https://openalex.org/W2983485154
DOI
10.1093/nar/gkz967

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Malaysia

References

  • https://openalex.org/W1803102843
  • https://openalex.org/W1978594833
  • https://openalex.org/W2004228538
  • https://openalex.org/W2085277871
  • https://openalex.org/W2100301244
  • https://openalex.org/W2109872885
  • https://openalex.org/W2147645629
  • https://openalex.org/W2558272290
  • https://openalex.org/W2593184757
  • https://openalex.org/W2767957539
  • https://openalex.org/W2900359059
  • https://openalex.org/W2900701906
  • https://openalex.org/W4210702584
  • https://openalex.org/W4231925057
  • https://openalex.org/W4250359879