Published April 14, 2022 | Version v1
Publication Open

High-throughput discovery of chemical structure-polarity relationships combining automation and machine learning techniques

  • 1. Peking University
  • 2. Yong In University
  • 3. University of California, Santa Barbara
  • 4. University of Toledo
  • 5. WuXi AppTec (China)
  • 6. Southern University of Science and Technology

Description

Abstract As an essential attribute of organic compounds, polarity has a profound influence on many molecular properties such as solubility and phase transition temperature. Thin layer chromatography (TLC) represents a commonly used technique for polarity measurement. However, current TLC analysis presents several problems, including the need for a large number of attempts to obtain suitable conditions, as well as irreproducibility due to non-standardization. Herein, we describe an automated experiment system for TLC analysis. This system is designed to conduct TLC analysis automatically, facilitating high-throughput experimentation by collecting large experimental datasets under standardized conditions. Using these datasets, machine learning (ML) methods are employed to construct surrogate models correlating organic compounds' structures and their polarity using retardation factor (Rf). The trained ML models are able to predict the Rf value curve of organic compounds with high accuracy. Furthermore, the constitutive relationship between the compound and its polarity can also be discovered through these modeling methods, and the underlying mechanism is rationalized through adsorption theories. The trained ML models not only reduce the need for empirical optimization currently required for TLC analysis, but also provide general guidelines for the selection of conditions, making TLC an easily accessible tool for the broader scientific community.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

الخلاصة باعتبارها سمة أساسية للمركبات العضوية، فإن القطبية لها تأثير عميق على العديد من الخصائص الجزيئية مثل الذوبان ودرجة حرارة انتقال الطور. يمثل استشراب الطبقة الرقيقة تقنية شائعة الاستخدام لقياس القطبية. ومع ذلك، فإن التحليل الحالي لدائرة تعليم المعلم يطرح العديد من المشاكل، بما في ذلك الحاجة إلى عدد كبير من المحاولات للحصول على ظروف مناسبة، وكذلك عدم القدرة على الإنتاج بسبب عدم التوحيد القياسي. هنا، نصف نظامًا تجريبيًا آليًا لتحليل دائرة تعلم المعلم. تم تصميم هذا النظام لإجراء تحليل دائرة تعلم المعلم تلقائيًا، مما يسهل إجراء التجارب عالية الإنتاجية من خلال جمع مجموعات بيانات تجريبية كبيرة في ظل ظروف موحدة. باستخدام مجموعات البيانات هذه، يتم استخدام طرق التعلم الآلي (ML) لبناء نماذج بديلة تربط بين هياكل المركبات العضوية وقطبيتها باستخدام عامل التخلف (Rf). نماذج التعلم الآلي المدربة قادرة على التنبؤ بمنحنى قيمة الترددات اللاسلكية للمركبات العضوية بدقة عالية. علاوة على ذلك، يمكن أيضًا اكتشاف العلاقة التأسيسية بين المركب وقطبيته من خلال طرق النمذجة هذه، ويتم ترشيد الآلية الأساسية من خلال نظريات الامتزاز. لا تقلل نماذج التعلم الآلي المدربة من الحاجة إلى التحسين التجريبي المطلوب حاليًا لتحليل دائرة تعلم المعلم فحسب، بل توفر أيضًا إرشادات عامة لاختيار الشروط، مما يجعل دائرة تعلم المعلم أداة يسهل الوصول إليها للمجتمع العلمي الأوسع.

Translated Description (French)

Résumé Attribut essentiel des composés organiques, la polarité a une influence profonde sur de nombreuses propriétés moléculaires telles que la solubilité et la température de transition de phase. La chromatographie sur couche mince (CCM) représente une technique couramment utilisée pour la mesure de la polarité. Cependant, l'analyse TLC actuelle présente plusieurs problèmes, notamment la nécessité d'un grand nombre de tentatives pour obtenir des conditions appropriées, ainsi que l'irréprochabilité due à la non-standardisation. Ici, nous décrivons un système d'expérience automatisé pour l'analyse TLC. Ce système est conçu pour effectuer une analyse TLC automatiquement, facilitant l'expérimentation à haut débit en collectant de grands ensembles de données expérimentales dans des conditions standardisées. À l'aide de ces ensembles de données, des méthodes d'apprentissage automatique (ML) sont utilisées pour construire des modèles de substitution corrélant les structures des composés organiques et leur polarité à l'aide du facteur de retard (Rf). Les modèles ML formés sont capables de prédire la courbe de valeur Rf des composés organiques avec une grande précision. En outre, la relation constitutive entre le composé et sa polarité peut également être découverte par ces méthodes de modélisation, et le mécanisme sous-jacent est rationalisé par des théories d'adsorption. Les modèles ML formés réduisent non seulement le besoin d'optimisation empirique actuellement requis pour l'analyse TLC, mais fournissent également des lignes directrices générales pour la sélection des conditions, faisant de TLC un outil facilement accessible pour la communauté scientifique au sens large.

Translated Description (Spanish)

Resumen Como atributo esencial de los compuestos orgánicos, la polaridad tiene una profunda influencia en muchas propiedades moleculares, como la solubilidad y la temperatura de transición de fase. La cromatografía en capa fina (TLC) representa una técnica comúnmente utilizada para la medición de la polaridad. Sin embargo, el análisis actual de TLC presenta varios problemas, incluida la necesidad de un gran número de intentos para obtener condiciones adecuadas, así como la irreproducibilidad debido a la no estandarización. En este documento, describimos un sistema de experimento automatizado para el análisis de TLC. Este sistema está diseñado para realizar análisis de TLC automáticamente, facilitando la experimentación de alto rendimiento mediante la recopilación de grandes conjuntos de datos experimentales en condiciones estandarizadas. Utilizando estos conjuntos de datos, se emplean métodos de aprendizaje automático (ML) para construir modelos sustitutos que correlacionan las estructuras de los compuestos orgánicos y su polaridad utilizando el factor de retardo (Rf). Los modelos de ML entrenados son capaces de predecir la curva de valor de Rf de compuestos orgánicos con alta precisión. Además, la relación constitutiva entre el compuesto y su polaridad también se puede descubrir a través de estos métodos de modelado, y el mecanismo subyacente se racionaliza a través de teorías de adsorción. Los modelos de ML entrenados no solo reducen la necesidad de optimización empírica actualmente requerida para el análisis de TLC, sino que también proporcionan pautas generales para la selección de condiciones, lo que hace que TLC sea una herramienta de fácil acceso para la comunidad científica en general.

Files

latest.pdf.pdf

Files (2.3 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:f0a5351c66d24c9d3ca8a387bcc25286
2.3 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
اكتشاف عالي الإنتاجية لعلاقات البنية والقطبية الكيميائية التي تجمع بين الأتمتة وتقنيات التعلم الآلي
Translated title (French)
Découverte à haut débit de relations structure chimique-polarité combinant des techniques d'automatisation et d'apprentissage automatique
Translated title (Spanish)
Descubrimiento de alto rendimiento de relaciones químicas estructura-polaridad que combinan técnicas de automatización y aprendizaje automático

Identifiers

Other
https://openalex.org/W4223905959
DOI
10.21203/rs.3.rs-1541871/v1

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China