Published September 1, 2018 | Version v1
Publication Open

Sequence-based searching of custom proteome and transcriptome databases

  • 1. National Heart Lung and Blood Institute
  • 2. National Institutes of Health
  • 3. University of America
  • 4. Catholic University of America
  • 5. Chulalongkorn University

Description

A long-term goal in renal physiology is to understand the mechanisms involved in collecting duct function and regulation at a cellular and molecular level. The first step in modeling of these mechanisms, which can provide a guide to experimentation, is the generation of a list of model components. We have curated a list of proteins expressed in the rat renal inner medullary collecting duct (IMCD) from proteomic data from 18 different publications. The database has been posted as a public resource at https://hpcwebapps.cit.nih.gov/ESBL/Database/IMCD_Proteome_Database/. It includes 8956 different proteins. To search the IMCD Proteomic Database efficiently, we have created a Java-based program called curated database Basic Local Alignment Search Tool (cdbBLAST), which uses the NCBI BLAST kernel to search for specific amino acid sequences corresponding to proteins in the database. cdbBLAST reports information on the matched protein and identifies proteins in the database that have similar sequences. We have also adapted cdbBLAST to interrogate our previously published IMCD Transcriptome Database. We have made the cdbBLAST program available for use either as a web application or a downloadable .jar file at https://hpcwebapps.cit.nih.gov/ESBL/Database/cdbBLAST/. Database searching based on protein sequence removes ambiguities arising from the standard search method based on official gene symbols and allows the user efficient identification of related proteins that may fulfill the same functional roles.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يتمثل الهدف طويل الأجل في علم وظائف الأعضاء الكلوية في فهم الآليات التي ينطوي عليها جمع وظيفة القناة وتنظيمها على المستوى الخلوي والجزيئي. تتمثل الخطوة الأولى في نمذجة هذه الآليات، والتي يمكن أن توفر دليلًا للتجريب، في إنشاء قائمة بمكونات النموذج. لقد نسقنا قائمة بالبروتينات المعبر عنها في قناة التجميع النخاعي الداخلي للفئران (IMCD) من البيانات البروتينية من 18 منشورًا مختلفًا. تم نشر قاعدة البيانات كمورد عام على https://hpcwebapps.cit.nih.gov/ESBL/Database/IMCD_Proteome_Database/. يحتوي على 8956 بروتينًا مختلفًا. للبحث في قاعدة بيانات IMCD البروتينية بكفاءة، أنشأنا برنامجًا قائمًا على Java يسمى أداة البحث عن المحاذاة المحلية الأساسية لقاعدة البيانات (cdbBLAST)، والذي يستخدم نواة انفجار NCBI للبحث عن متواليات محددة من الأحماض الأمينية المقابلة للبروتينات في قاعدة البيانات. يقدم cdbBLAST معلومات عن البروتين المطابق ويحدد البروتينات في قاعدة البيانات التي لها متواليات مماثلة. لقد قمنا أيضًا بتكييف cdbBLAST لاستجواب قاعدة بيانات IMCD Transcriptome المنشورة سابقًا. لقد جعلنا برنامج cdbBLAST متاحًا للاستخدام إما كتطبيق ويب أو ملف .jar قابل للتنزيل على https://hpcwebapps.cit.nih.gov/ESBL/Database/cdbBLAST/. يزيل البحث في قاعدة البيانات بناءً على تسلسل البروتين أوجه الغموض الناشئة عن طريقة البحث القياسية بناءً على رموز الجينات الرسمية ويسمح للمستخدم بالتعرف بكفاءة على البروتينات ذات الصلة التي قد تؤدي نفس الأدوار الوظيفية.

Translated Description (French)

Un objectif à long terme en physiologie rénale est de comprendre les mécanismes impliqués dans la collecte de la fonction et de la régulation des canaux au niveau cellulaire et moléculaire. La première étape de la modélisation de ces mécanismes, qui peut fournir un guide pour l'expérimentation, est la génération d'une liste de composants du modèle. Nous avons dressé une liste des protéines exprimées dans le canal collecteur médullaire interne rénal (DCIM) du rat à partir de données protéomiques provenant de 18 publications différentes. La base de données a été publiée en tant que ressource publique sur https://hpcwebapps.cit.nih.gov/ESBL/Database/IMCD_Proteome_Database/. Il comprend 8956 protéines différentes. Pour effectuer une recherche efficace dans la base de données protéomique IMCD, nous avons créé un programme basé sur Java appelé curated database Basic Local Alignment Search Tool (cdbBLAST), qui utilise le noyau BLAST NCBI pour rechercher des séquences d'acides aminés spécifiques correspondant aux protéines dans la base de données. cdbBLAST rapporte des informations sur la protéine appariée et identifie les protéines dans la base de données qui ont des séquences similaires. Nous avons également adapté cdbBLAST pour interroger notre base de données de transcriptomes IMCD précédemment publiée. Nous avons mis le programme cdbBLAST à disposition pour une utilisation en tant qu'application Web ou en tant que fichier .jar téléchargeable sur https://hpcwebapps.cit.nih.gov/ESBL/Database/cdbBLAST/. La recherche de base de données basée sur la séquence de protéines supprime les ambiguïtés découlant de la méthode de recherche standard basée sur les symboles de gènes officiels et permet l'identification efficace par l'utilisateur des protéines apparentées qui peuvent remplir les mêmes rôles fonctionnels.

Translated Description (Spanish)

Un objetivo a largo plazo en la fisiología renal es comprender los mecanismos involucrados en la recolección de la función y regulación de los conductos a nivel celular y molecular. El primer paso en el modelado de estos mecanismos, que pueden proporcionar una guía para la experimentación, es la generación de una lista de componentes del modelo. Hemos seleccionado una lista de proteínas expresadas en el conducto colector medular interno renal (IMCD) de rata a partir de datos proteómicos de 18 publicaciones diferentes. La base de datos se ha publicado como recurso público en https://hpcwebapps.cit.nih.gov/ESBL/Database/IMCD_Proteome_Database/. Incluye 8956 proteínas diferentes. Para buscar en la base de datos proteómica de IMCD de manera eficiente, hemos creado un programa basado en Java llamado Base de datos curada Basic Local Alignment Search Tool (cdbBLAST), que utiliza el núcleo NCBI BLAST para buscar secuencias de aminoácidos específicas correspondientes a proteínas en la base de datos. cdbBLAST informa información sobre la proteína coincidente e identifica proteínas en la base de datos que tienen secuencias similares. También hemos adaptado cdbBLAST para interrogar a nuestra base de datos de transcriptomas IMCD publicada anteriormente. Hemos puesto a disposición el programa cdbBLAST para su uso como aplicación web o como archivo .jar descargable en https://hpcwebapps.cit.nih.gov/ESBL/Database/cdbBLAST/. La búsqueda en la base de datos basada en la secuencia de proteínas elimina las ambigüedades que surgen del método de búsqueda estándar basado en símbolos génicos oficiales y permite al usuario identificar de manera eficiente las proteínas relacionadas que pueden cumplir las mismas funciones funcionales.

Files

phy2.13846.pdf

Files (15.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:6ad2a9d8aca081f9fde5475952894d44
15.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
البحث القائم على التسلسل في قواعد بيانات البروتيوم والنسخة المخصصة
Translated title (French)
Recherche basée sur la séquence de bases de données personnalisées de protéomes et de transcriptomes
Translated title (Spanish)
Búsqueda basada en secuencias de bases de datos personalizadas de proteomas y transcriptomas

Identifiers

Other
https://openalex.org/W2891574846
DOI
10.14814/phy2.13846

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Thailand

References

  • https://openalex.org/W2005126769
  • https://openalex.org/W2015039564
  • https://openalex.org/W2037441198
  • https://openalex.org/W2052074490
  • https://openalex.org/W2055043387
  • https://openalex.org/W2077590076
  • https://openalex.org/W2098381034
  • https://openalex.org/W2107115930
  • https://openalex.org/W2111410841
  • https://openalex.org/W2118265835
  • https://openalex.org/W2130626747
  • https://openalex.org/W2133393838
  • https://openalex.org/W2134165075
  • https://openalex.org/W2135900087
  • https://openalex.org/W2141591785
  • https://openalex.org/W2162220799
  • https://openalex.org/W2171039931
  • https://openalex.org/W2171624087
  • https://openalex.org/W2313374221
  • https://openalex.org/W2392974489
  • https://openalex.org/W2416954049
  • https://openalex.org/W2544109885
  • https://openalex.org/W2891574846