Published June 18, 2021 | Version v1
Publication Open

Relative Performance of Cluster Algorithms and Validation Indices in Maize Genome-wide Structure Patterns

  • 1. National Agricultural Technology Institute
  • 2. Universidad Nacional de Córdoba
  • 3. Weatherford College
  • 4. Instituto Nacional de Tecnologia

Description

Abstract A number of clustering algorithms are available to depict population genetic structure (PGS) with genomic data; however, there is no consensus on which methods are the best performing ones. We conducted a simulation study of three PGS scenarios with subpopulations k=2, 5 and 10, recreating several maize genomes as a model to: (i) compare three well-known clustering methods: UPGMA, k-means and, Bayesian method (BM), (ii) asses four internal validation indices: CH, Connectivity, Dunn and Silhouette, to determine the reliable number of groups defining a PGS, and (iii) estimate the misclassification rate for each validation index. Moreover, a publicly available maize dataset was used to illustrate the outcomes of our simulation. BM was the best method to classify individuals in all tested scenarios, without assignment errors. Conversely, UPGMA was the method with the highest misclassification rate. In scenarios with 5 and 10 subpopulations, CH and Connectivity indices had the maximum underestimation of group number for all cluster algorithms. Dunn and Silhouette indices showed the best performance with BM. Nevertheless, since Silhouette measures the degree of confidence in cluster assignment, and BM measures the probability of cluster membership, these results should be considered with caution. In this study we found that BM showed to be efficient to depict the PGS in both simulated and real maize datasets. This study offers a robust alternative to unveil the existing PGS, thereby facilitating population studies and breeding strategies in maize programs. Moreover, the present findings may have implications for other crop species.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الخلاصة يتوفر عدد من خوارزميات التجميع لتصوير البنية الوراثية السكانية (PGS) مع البيانات الجينية ؛ ومع ذلك، لا يوجد إجماع على الطرق الأفضل أداءً. أجرينا دراسة محاكاة لثلاثة سيناريوهات PGS مع المجموعات السكانية الفرعية k=2 و 5 و 10، وإعادة إنشاء العديد من جينومات الذرة كنموذج من أجل: (1) مقارنة ثلاث طرق تجميع معروفة جيدًا: UPGMA و k - means و، طريقة Bayesian (BM)، (2) تقييم أربعة مؤشرات تحقق داخلية: CH و Connectivity و Dunn و Silhouette، لتحديد العدد الموثوق به للمجموعات التي تحدد PGS، و (3) تقدير معدل سوء التصنيف لكل مؤشر تحقق. علاوة على ذلك، تم استخدام مجموعة بيانات الذرة المتاحة للجمهور لتوضيح نتائج محاكاتنا. كان BM أفضل طريقة لتصنيف الأفراد في جميع السيناريوهات التي تم اختبارها، دون أخطاء في التعيين. على العكس من ذلك، كان UPGMA الطريقة ذات أعلى معدل خطأ في التصنيف. في السيناريوهات التي تحتوي على 5 و 10 مجموعات سكانية فرعية، كان لمؤشرات CH و Connectivity الحد الأقصى من الاستهانة برقم المجموعة لجميع خوارزميات المجموعة. أظهرت مؤشرات Dunn وSilhouette أفضل أداء مع BM. ومع ذلك، نظرًا لأن Silhouette تقيس درجة الثقة في تعيين المجموعة، ويقيس BM احتمال عضوية المجموعة، يجب النظر في هذه النتائج بحذر. في هذه الدراسة وجدنا أن BM أظهرت أنها فعالة لتصوير PGS في كل من مجموعات بيانات الذرة المحاكية والحقيقية. تقدم هذه الدراسة بديلاً قويًا للكشف عن PGS الحالي، وبالتالي تسهيل الدراسات السكانية واستراتيجيات التكاثر في برامج الذرة. علاوة على ذلك، قد يكون للنتائج الحالية آثار على أنواع المحاصيل الأخرى.

Translated Description (French)

Résumé Un certain nombre d'algorithmes de regroupement sont disponibles pour décrire la structure génétique des populations (PGS) avec des données génomiques ; cependant, il n'y a pas de consensus sur les méthodes les plus performantes. Nous avons mené une étude de simulation de trois scénarios PGS avec des sous-populations k=2, 5 et 10, recréant plusieurs génomes de maïs comme modèle pour : (i) comparer trois méthodes de regroupement bien connues : UPGMA, k-means et, méthode bayésienne (BM), (ii) évaluer quatre indices de validation internes : CH, Connectivity, Dunn et Silhouette, afin de déterminer le nombre fiable de groupes définissant un PGS, et (iii) estimer le taux de classification erronée pour chaque indice de validation. De plus, un ensemble de données sur le maïs accessible au public a été utilisé pour illustrer les résultats de notre simulation. BM était la meilleure méthode pour classer les individus dans tous les scénarios testés, sans erreurs d'affectation. À l'inverse, l'UPGMA était la méthode avec le taux d'erreur de classification le plus élevé. Dans les scénarios avec 5 et 10 sous-populations, les indices CH et Connectivité avaient la sous-estimation maximale du nombre de groupes pour tous les algorithmes de cluster. Les indices Dunn et Silhouette ont montré les meilleures performances avec BM. Néanmoins, étant donné que Silhouette mesure le degré de confiance dans l'attribution des grappes et que BM mesure la probabilité d'appartenance aux grappes, ces résultats doivent être considérés avec prudence. Dans cette étude, nous avons constaté que BM s'est avéré efficace pour représenter le PGS dans les ensembles de données de maïs simulés et réels. Cette étude offre une alternative robuste pour dévoiler le PGS existant, facilitant ainsi les études de population et les stratégies de sélection dans les programmes de maïs. De plus, les présentes conclusions peuvent avoir des implications pour d'autres espèces cultivées.

Translated Description (Spanish)

Resumen Hay varios algoritmos de agrupamiento disponibles para representar la estructura genética de la población (PGS) con datos genómicos; sin embargo, no hay consenso sobre qué métodos son los de mejor rendimiento. Realizamos un estudio de simulación de tres escenarios de PGS con subpoblaciones k=2, 5 y 10, recreando varios genomas de maíz como modelo para: (i) comparar tres métodos de agrupamiento bien conocidos: UPGMA, k-means y, método bayesiano (BM), (ii) evalúa cuatro índices de validación internos: CH, Connectivity, Dunn y Silhouette, para determinar el número confiable de grupos que definen un PGS, y (iii) estimar la tasa de clasificación errónea para cada índice de validación. Además, se utilizó un conjunto de datos de maíz disponible públicamente para ilustrar los resultados de nuestra simulación. BM fue el mejor método para clasificar a los individuos en todos los escenarios probados, sin errores de asignación. Por el contrario, UPGMA fue el método con la tasa de clasificación errónea más alta. En escenarios con 5 y 10 subpoblaciones, los índices de CH y conectividad tuvieron la subestimación máxima del número de grupos para todos los algoritmos de clúster. Los índices Dunn y Silhouette mostraron el mejor rendimiento con BM. Sin embargo, dado que Silhouette mide el grado de confianza en la asignación de grupos y BM mide la probabilidad de pertenecer a un grupo, estos resultados deben considerarse con precaución. En este estudio encontramos que BM demostró ser eficiente para representar el PGS en conjuntos de datos de maíz simulados y reales. Este estudio ofrece una alternativa sólida para dar a conocer el PGS existente, facilitando así los estudios de población y las estrategias de mejoramiento en los programas de maíz. Además, los presentes hallazgos pueden tener implicaciones para otras especies de cultivos.

Files

latest.pdf.pdf

Files (601.7 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:c9cb00cefb41518b0fafb6df36935405
601.7 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
الأداء النسبي للخوارزميات العنقودية ومؤشرات التحقق في أنماط البنية على مستوى جينوم الذرة
Translated title (French)
Performance relative des algorithmes de cluster et des indices de validation dans les modèles de structure à l'échelle du génome du maïs
Translated title (Spanish)
Rendimiento relativo de algoritmos de clúster e índices de validación en patrones de estructura de todo el genoma del maíz

Identifiers

Other
https://openalex.org/W3177123734
DOI
10.21203/rs.3.rs-591897/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Argentina

References

  • https://openalex.org/W194080464
  • https://openalex.org/W1976167484
  • https://openalex.org/W1976415646
  • https://openalex.org/W1988200920
  • https://openalex.org/W1991301405
  • https://openalex.org/W1995125171
  • https://openalex.org/W2000184633
  • https://openalex.org/W2014656592
  • https://openalex.org/W2021198620
  • https://openalex.org/W2046286791
  • https://openalex.org/W2052731246
  • https://openalex.org/W2067730449
  • https://openalex.org/W2117709702
  • https://openalex.org/W2119444539
  • https://openalex.org/W2120962599
  • https://openalex.org/W2138556224
  • https://openalex.org/W2144539150
  • https://openalex.org/W2155244871
  • https://openalex.org/W2161339576
  • https://openalex.org/W2577110407
  • https://openalex.org/W2619720770
  • https://openalex.org/W2626638513
  • https://openalex.org/W2782678399
  • https://openalex.org/W2804779491
  • https://openalex.org/W2901169480
  • https://openalex.org/W2945843286
  • https://openalex.org/W2950373858
  • https://openalex.org/W3036702182
  • https://openalex.org/W4237862721