CONTENT -- Multi-context genetic modeling TWAS and eAssociation summary statistics
Creators
- 1. UCLA Health
 - 2. Universidad Católica de Santa Fe
 
Description
We provide the summary statistics of running CONTENT, the context-by-context approach, and UTMOST on over 22 phenotypes. The phenotypes are listed in the manuscript, and their respective studies and sample size can be found in a table under the supplementary section of the manuscript. All 3 methods were trained on GTEx v7 as well as CLUES, a single-cell RNA sequencing dataset of PBMCs. The data include the gene name, model, cross-validated R^2, prediction pvalue, TWAS p value, TWAS Z score, and a column titled "hFDR" indicating whether the association was statistically significant while employing hierarchical FDR. The benefits of employing such an approach for all methods can be found in the manuscript. We also include the eAssociations that we obtain by training prediction models on GTEx and CLUES alone. For the CxC and UTMOST approaches, these files contain the gene, context, pvalue and adjusted R^2. For CONTENT, these include the gene, context and pvalue and adjusted R^2 for each CONTENT model--the column names are described like a regression of y~x, rsq_y_x, so rsq_observed_full is the adjusted R^2 from regressing the observed expression onto the cross-validated full model predictions. In cases where the R^2 is higher from the specific or shared models, it's best to use either of those rather than the full model for out of sample prediction.
Translated Descriptions
Translated Description (Arabic)
نحن نقدم إحصاءات موجزة للمحتوى الجاري، ونهج السياق حسب السياق، وأقصى ما يمكن على أكثر من 22 نمطًا ظاهريًا. يتم سرد الأنماط الظاهرية في المخطوطة، ويمكن العثور على دراساتها وحجم العينة في جدول تحت القسم التكميلي من المخطوطة. تم تدريب جميع الطرق الثلاث على GTEx v7 بالإضافة إلى CLUES، وهي مجموعة بيانات تسلسل الحمض النووي الريبي أحادية الخلية من PBMCs. تتضمن البيانات اسم الجين، والنموذج، و R^2 الذي تم التحقق منه بشكل متقاطع، وقيمة التنبؤ، وقيمة TWAS p، ودرجة TWAS Z، وعمود بعنوان "hFDR" يشير إلى ما إذا كان الارتباط ذا دلالة إحصائية أثناء استخدام FDR الهرمي. يمكن العثور على فوائد استخدام مثل هذا النهج لجميع الأساليب في المخطوطة. كما نقوم بتضمين الجمعيات الإلكترونية التي نحصل عليها من خلال تدريب نماذج التنبؤ على GTEx و CLUES وحدها. بالنسبة لـ CxC والنهج القصوى، تحتوي هذه الملفات على الجين والسياق والقيمة والمعدل R^2. بالنسبة للمحتوى، تشمل هذه الجين والسياق والقيمة وتعديل R^2 لكل نموذج محتوى - يتم وصف أسماء الأعمدة مثل انحدار y~x، rsq_y_x، لذلك rsq_observed_full هو R^2 المعدل من ارتداد التعبير المرصود إلى تنبؤات النموذج الكامل التي تم التحقق منها بشكل متقاطع. في الحالات التي يكون فيها R^2 أعلى من النماذج المحددة أو المشتركة، من الأفضل استخدام أي من هذين النموذجين بدلاً من النموذج الكامل للتنبؤ خارج العينة.Translated Description (French)
Nous fournissons les statistiques sommaires du CONTENU en cours d'exécution, l'approche contexte par contexte et le MAXIMUM sur plus de 22 phénotypes. Les phénotypes sont énumérés dans le manuscrit, et leurs études respectives et la taille de l'échantillon peuvent être trouvées dans un tableau sous la section supplémentaire du manuscrit. Les 3 méthodes ont été formées sur GTEx v7 ainsi que sur CLUES, un ensemble de données de séquençage d'ARN unicellulaire de PBMC. Les données comprennent le nom du gène, le modèle, le R^2 validé de manière croisée, la valeur p de prédiction, la valeur TWAS p, le score TWAS Z et une colonne intitulée « hFDR » indiquant si l'association était statistiquement significative tout en utilisant le FDR hiérarchique. Les avantages d'utiliser une telle approche pour toutes les méthodes se trouvent dans le manuscrit. Nous incluons également les eAssociations que nous obtenons en formant des modèles de prédiction sur GTEx et DES INDICES seuls. Pour la CxC et les approches les PLUS EXTRÊMES, ces fichiers contiennent le gène, le contexte, la valeur p et le R^2 ajusté. Pour le CONTENU, ceux-ci comprennent le gène, le contexte et la valeur p et R^2 ajusté pour chaque modèle de CONTENU - les noms de colonne sont décrits comme une régression de y~x, rsq_y_x, de sorte que rsq_observed_full est le R^2 ajusté à partir de la régression de l'expression observée sur les prédictions du modèle complet à validation croisée. Dans les cas où le R^2 est plus élevé à partir des modèles spécifiques ou partagés, il est préférable d'utiliser l'un ou l'autre plutôt que le modèle complet pour la prédiction hors échantillon.Translated Description (Spanish)
Proporcionamos las estadísticas resumidas del CONTENIDO en ejecución, el enfoque contexto por contexto y el MÁXIMO en más de 22 fenotipos. Los fenotipos se enumeran en el manuscrito, y sus respectivos estudios y tamaño de la muestra se pueden encontrar en una tabla en la sección complementaria del manuscrito. Los 3 métodos se entrenaron en GTEx v7, así como en CLUES, un conjunto de datos de secuenciación de ARN unicelular de PBMC. Los datos incluyen el nombre del gen, el modelo, el R^2 validado de forma cruzada, el valor p de predicción, el valor p de TWAS, la puntuación Z de TWAS y una columna titulada "hFDR" que indica si la asociación fue estadísticamente significativa al emplear FDR jerárquico. Los beneficios de emplear tal enfoque para todos los métodos se pueden encontrar en el manuscrito. También incluimos las eAssociations que obtenemos entrenando modelos de predicción solo en GTEx y CLUES. Para los enfoques CxC y MÁXIMO, estos archivos contienen el gen, el contexto, el valor de p y el R^2 ajustado. Para el CONTENIDO, estos incluyen el gen, el contexto y el valor de p y el R^2 ajustado para cada modelo de CONTENIDO: los nombres de las columnas se describen como una regresión de y~x, rsq_y_x, por lo que rsq_observed_full es el R^2 ajustado a partir de la regresión de la expresión observada a las predicciones del modelo completo validado de forma cruzada. En los casos en que el R^2 es mayor a partir de los modelos específicos o compartidos, es mejor usar cualquiera de ellos en lugar del modelo completo para la predicción fuera de la muestra.Additional details
Additional titles
- Translated title (Arabic)
 - المحتوى - إحصائيات ملخص النمذجة الجينية متعددة السياقات TWAS و eAssociation
 - Translated title (French)
 - CONTENU -- Modélisation génétique multi-contexte Statistiques récapitulatives TWAS et eAssociation
 - Translated title (Spanish)
 - CONTENIDO -- Estadísticas resumidas de TWAS y eAssociation de modelado genético multicontexto
 
Identifiers
- Other
 - https://openalex.org/W4393771995
 - DOI
 - 10.5281/zenodo.6578303