An efficient not-only-linear correlation coefficient based on machine learning
- 1. University of Pennsylvania
- 2. National University of the Littoral
- 3. Consejo Nacional de Investigaciones Científicas y Técnicas
- 4. University of Colorado Denver
Description
Abstract Correlation coefficients are widely used to identify patterns in data that may be of particular interest. In transcriptomics, genes with correlated expression often share functions or are part of disease-relevant biological processes. Here we introduce the Clustermatch Correlation Coefficient (CCC), an efficient, easy-to-use and not-only-linear coefficient based on machine learning models. CCC reveals biologically meaningful linear and nonlinear patterns missed by standard, linear-only correlation coefficients. CCC captures general patterns in data by comparing clustering solutions while being much faster than state-of-the-art coefficients such as the Maximal Information Coefficient. When applied to human gene expression data, CCC identifies robust linear relationships while detecting nonlinear patterns associated, for example, with sex differences that are not captured by linear-only coefficients. Gene pairs highly ranked by CCC were enriched for interactions in integrated networks built from protein-protein interaction, transcription factor regulation, and chemical and genetic perturbations, suggesting that CCC could detect functional relationships that linear-only methods missed. CCC is a highly-efficient, next-generation not-only-linear correlation coefficient that can readily be applied to genome-scale data and other domains across different data types.
Translated Descriptions
Translated Description (Arabic)
تُستخدم معاملات الارتباط المجردة على نطاق واسع لتحديد الأنماط في البيانات التي قد تكون ذات أهمية خاصة. في علم النسخ، غالبًا ما تشترك الجينات ذات التعبير المترابط في وظائف أو تكون جزءًا من العمليات البيولوجية ذات الصلة بالمرض. نقدم هنا معامل ارتباط Clustermatch (CCC)، وهو معامل فعال وسهل الاستخدام وغير خطي فقط يعتمد على نماذج التعلم الآلي. تكشف CCC عن أنماط خطية وغير خطية ذات مغزى بيولوجيًا تفوتها معاملات الارتباط القياسية والخطية فقط. تلتقط CCC الأنماط العامة في البيانات من خلال مقارنة حلول التجميع العنقودي مع كونها أسرع بكثير من المعاملات الحديثة مثل معامل المعلومات الأقصى. عند تطبيقه على بيانات التعبير الجيني البشري، يحدد CCC العلاقات الخطية القوية مع اكتشاف الأنماط غير الخطية المرتبطة، على سبيل المثال، بالاختلافات بين الجنسين التي لا يتم التقاطها بواسطة المعاملات الخطية فقط. تم إثراء أزواج الجينات التي تحتل مرتبة عالية من قبل CCC للتفاعلات في الشبكات المتكاملة المبنية من تفاعل البروتين والبروتين، وتنظيم عامل النسخ، والاضطرابات الكيميائية والوراثية، مما يشير إلى أن CCC يمكن أن تكتشف العلاقات الوظيفية التي فاتتها الطرق الخطية فقط. CCC هو معامل ارتباط غير خطي من الجيل التالي عالي الكفاءة يمكن تطبيقه بسهولة على البيانات على نطاق الجينوم والمجالات الأخرى عبر أنواع البيانات المختلفة.Translated Description (French)
Les coefficients de corrélation abstraits sont largement utilisés pour identifier les modèles dans les données qui peuvent être d'un intérêt particulier. En transcriptomique, les gènes ayant une expression corrélée partagent souvent des fonctions ou font partie de processus biologiques pertinents pour la maladie. Nous présentons ici le coefficient de corrélation de Clustermatch (CCC), un coefficient efficace, facile à utiliser et non seulement linéaire basé sur des modèles d'apprentissage automatique. La CCC révèle des modèles linéaires et non linéaires biologiquement significatifs manqués par les coefficients de corrélation linéaires standard. CCC capture les modèles généraux dans les données en comparant les solutions de clustering tout en étant beaucoup plus rapide que les coefficients de pointe tels que le coefficient d'information maximal. Lorsqu'elle est appliquée aux données d'expression génique humaine, la CCC identifie des relations linéaires robustes tout en détectant des modèles non linéaires associés, par exemple, à des différences sexuelles qui ne sont pas capturées par des coefficients linéaires uniquement. Les paires de gènes hautement classées par CCC ont été enrichies pour les interactions dans les réseaux intégrés construits à partir de l'interaction protéine-protéine, de la régulation du facteur de transcription et des perturbations chimiques et génétiques, ce qui suggère que CCC pourrait détecter les relations fonctionnelles que les méthodes linéaires seules ont manquées. La CCC est un coefficient de corrélation non linéaire de nouvelle génération très efficace qui peut facilement être appliqué aux données à l'échelle du génome et à d'autres domaines à travers différents types de données.Translated Description (Spanish)
Los coeficientes de correlación abstracta se utilizan ampliamente para identificar patrones en los datos que pueden ser de particular interés. En la transcriptómica, los genes con expresión correlacionada a menudo comparten funciones o forman parte de procesos biológicos relevantes para la enfermedad. Aquí presentamos el Coeficiente de Correlación Clustermatch (CCC), un coeficiente eficiente, fácil de usar y no solo lineal basado en modelos de aprendizaje automático. CCC revela patrones lineales y no lineales biológicamente significativos perdidos por los coeficientes de correlación estándar, solo lineales. CCC captura patrones generales en los datos mediante la comparación de soluciones de agrupamiento, al tiempo que es mucho más rápido que los coeficientes del estado de la técnica, como el coeficiente máximo de información. Cuando se aplica a los datos de expresión génica humana, CCC identifica relaciones lineales sólidas mientras detecta patrones no lineales asociados, por ejemplo, con diferencias de sexo que no son capturadas por coeficientes solo lineales. Los pares de genes altamente clasificados por CCC se enriquecieron para las interacciones en redes integradas construidas a partir de la interacción proteína-proteína, la regulación del factor de transcripción y las perturbaciones químicas y genéticas, lo que sugiere que CCC podría detectar relaciones funcionales que los métodos de solo lineal pasaron por alto. CCC es un coeficiente de correlación no solo lineal de próxima generación altamente eficiente que se puede aplicar fácilmente a datos a escala genómica y otros dominios en diferentes tipos de datos.Files
2022.06.15.496326.full.pdf.pdf
Files
(3.9 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:97acea5688866ad9e320a8755e4bbf7f
|
3.9 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- معامل ارتباط غير خطي فعال يعتمد على التعلم الآلي
- Translated title (French)
- Un coefficient de corrélation non linéaire efficace basé sur l'apprentissage automatique
- Translated title (Spanish)
- Un coeficiente de correlación no solo lineal eficiente basado en el aprendizaje automático
Identifiers
- Other
- https://openalex.org/W4283068958
- DOI
- 10.1101/2022.06.15.496326
References
- https://openalex.org/W1973012451
- https://openalex.org/W1981409633
- https://openalex.org/W1999303581
- https://openalex.org/W2003516452
- https://openalex.org/W2004127671
- https://openalex.org/W2022276101
- https://openalex.org/W2027431314
- https://openalex.org/W2072103747
- https://openalex.org/W2083042078
- https://openalex.org/W2088960431
- https://openalex.org/W2095867585
- https://openalex.org/W2103453943
- https://openalex.org/W2118258530
- https://openalex.org/W2123828448
- https://openalex.org/W2130410032
- https://openalex.org/W2140733306
- https://openalex.org/W2142570576
- https://openalex.org/W2145979309
- https://openalex.org/W2147710851
- https://openalex.org/W2150892663
- https://openalex.org/W2158697041
- https://openalex.org/W2159719688
- https://openalex.org/W2165253681
- https://openalex.org/W2165700458
- https://openalex.org/W2168104796
- https://openalex.org/W2245493112
- https://openalex.org/W2306302840
- https://openalex.org/W2465546685
- https://openalex.org/W2484866312
- https://openalex.org/W2539342224
- https://openalex.org/W2610600445
- https://openalex.org/W2626606138
- https://openalex.org/W2725988230
- https://openalex.org/W2794599946
- https://openalex.org/W2889722506
- https://openalex.org/W2898207162
- https://openalex.org/W2944540884
- https://openalex.org/W2945183595
- https://openalex.org/W2951159567
- https://openalex.org/W2952835495
- https://openalex.org/W3003909732
- https://openalex.org/W3025047014
- https://openalex.org/W3036210899
- https://openalex.org/W3089914992
- https://openalex.org/W3131480565
- https://openalex.org/W3133859624
- https://openalex.org/W3134120952
- https://openalex.org/W3135292871
- https://openalex.org/W3137665052
- https://openalex.org/W3138461147
- https://openalex.org/W3148764640
- https://openalex.org/W3183045239
- https://openalex.org/W3191919959
- https://openalex.org/W3197364483
- https://openalex.org/W3208112576
- https://openalex.org/W3216633781
- https://openalex.org/W4210726493
- https://openalex.org/W4235169531
- https://openalex.org/W4246925013