A framework for enhancing industrial soft sensor learning models
Creators
- João Guilherme Mattos1
- P. N. Happ1
- William Paulo Ducca Fernandes1
- 
    
      Hélio Lopes1
  
  
      
      
        
- 
    
      Simone Diniz Junqueira Barbosa1
  
  
      
      
        
- Marcos Kalinowski1
- L. S. da Rosa1
- Cassia Novello1
- 
    
      Leonardo D. Ribeiro2
  
  
      
      
        
- Patricia Rodrigues Ventura2
- Marcelo Cardoso Marques2
- Renato N. Pitta2
- Valmir Jose Camolesi2
- 
    
      Luís Costa2
  
  
      
      
        
- Bruno Itagyba Paravidino2
- 
    
      Cristiane Salgado Pereira2
  
  
      
      
        
- 1. Pontifical Catholic University of Rio de Janeiro
- 2. Petrobras (Brazil)
Description
Refinery industrial processes are very complex with nonlinear dynamics resulting from varying feedstock characteristics and also from changes in product prioritization. Along these processes, there are key properties of intermediate compounds that must be monitored and controlled since they directly affect the quality of the end products commercialized by these manufacturers. However, most of these properties can only be measured through time-consuming and expensive laboratory analysis, which is impossible to obtain in high frequencies, as required to properly monitor them. In this sense, developing soft sensors is the most common way to obtain high-frequency estimations for these measurements, helping advanced control systems to establish the correct setpoints for temperatures, pressures, and other sensors along the refining process, controlling the quality of end products. Since the amount of labeled data is scarce, most academic research has focused on employing semi- supervised learning strategies to develop machine learning (ML) models as soft sensors. Our research, on the other hand, goes in another direction. We aim to elaborate a framework that leverages the knowledge of domain experts and employs data augmentation techniques to build an enhanced fully labeled dataset that could be fed to any supervised ML algorithm to generate a quality soft sensor. We applied our framework together with Automated ML to train a model capable of predicting a specific key property associated with the produc- tion of Naphtha compounds in a refinery: the ASTM 95% distillation temperature of the Heavy Naphtha. Although our framework is model agnostic, we opted by using Automated ML for the optimization strategy, since it applies a diverse set of models to the dataset, reducing the bias of utilizing a single optimization algorithm. We evaluated the proposed framework on a case study carried out in an industrial refinery in Brazil, where the previous model in production for estimating the ASTM 95% distillation temperature of the Heavy Naphtha was based entirely on the physicochemical knowledge of the process. By adopting our framework with Automated ML, we were capable of improving the R2 score by 120%. The resulting ML model is currently operating in real-time inside the refinery, leading to significant economic gains.
Translated Descriptions
Translated Description (Arabic)
العمليات الصناعية للمصافي معقدة للغاية مع ديناميكيات غير خطية ناتجة عن خصائص المواد الخام المختلفة وأيضًا عن التغييرات في تحديد أولويات المنتج. على طول هذه العمليات، هناك خصائص رئيسية للمركبات الوسيطة التي يجب مراقبتها والتحكم فيها لأنها تؤثر بشكل مباشر على جودة المنتجات النهائية التي يتم تسويقها من قبل هذه الشركات المصنعة. ومع ذلك، لا يمكن قياس معظم هذه الخصائص إلا من خلال التحليل المختبري الذي يستغرق وقتًا طويلاً ومكلفًا، والذي يستحيل الحصول عليه بترددات عالية، كما هو مطلوب لرصدها بشكل صحيح. وبهذا المعنى، فإن تطوير المستشعرات اللينة هو الطريقة الأكثر شيوعًا للحصول على تقديرات عالية التردد لهذه القياسات، مما يساعد أنظمة التحكم المتقدمة على تحديد نقاط الضبط الصحيحة لدرجات الحرارة والضغوط والمستشعرات الأخرى على طول عملية التكرير، والتحكم في جودة المنتجات النهائية. نظرًا لأن كمية البيانات المصنفة نادرة، فقد ركزت معظم الأبحاث الأكاديمية على استخدام استراتيجيات التعلم شبه الخاضعة للإشراف لتطوير نماذج التعلم الآلي (ML) كأجهزة استشعار ناعمة. من ناحية أخرى، يسير بحثنا في اتجاه آخر. نهدف إلى وضع إطار عمل يستفيد من معرفة خبراء المجال ويستخدم تقنيات زيادة البيانات لبناء مجموعة بيانات محسنة موسومة بالكامل يمكن تغذيتها بأي خوارزمية تعلم آلي خاضعة للإشراف لتوليد مستشعر ناعم عالي الجودة. طبقنا إطار عملنا جنبًا إلى جنب مع برنامج التعلم الآلي الآلي لتدريب نموذج قادر على التنبؤ بخاصية رئيسية محددة مرتبطة بإنتاج مركبات النفتا في مصفاة: درجة حرارة التقطير ASTM 95 ٪ للنافثا الثقيلة. على الرغم من أن إطار عملنا هو نموذج لاأدري، فقد اخترنا استخدام التعلم الآلي لاستراتيجية التحسين، لأنه يطبق مجموعة متنوعة من النماذج على مجموعة البيانات، مما يقلل من التحيز في استخدام خوارزمية تحسين واحدة. قمنا بتقييم الإطار المقترح على دراسة حالة أجريت في مصفاة صناعية في البرازيل، حيث كان النموذج السابق في الإنتاج لتقدير درجة حرارة التقطير 95 ٪ للجمعية الأمريكية لاختبار المواد للنافثا الثقيلة يعتمد بالكامل على المعرفة الفيزيائية الكيميائية للعملية. من خلال اعتماد إطار عملنا مع التعلم الآلي، كنا قادرين على تحسين درجة R2 بنسبة 120 ٪. يعمل نموذج غسل الأموال الناتج حاليًا في الوقت الفعلي داخل المصفاة، مما يؤدي إلى مكاسب اقتصادية كبيرة.Translated Description (English)
Refinery industrial processes are very complex with nonlinear dynamics resulting from varying feedstock characteristics and also from changes in product prioritization. Along these processes, there are key properties of intermediate compounds that must be monitored and controlled since they directly affect the quality of the end products commercialized by these manufacturers. However, most of these properties can only be measured through time-consuming and expensive laboratory analysis, which is impossible to obtain in high frequencies, as required to properly monitor them. In this sense, developing soft sensors is the most common way to obtain high-frequency estimates for these measurements, helping advanced control systems to establish the correct setpoints for temperatures, pressures, and other sensors along the refining process, controlling the quality of end products. Since the amount of labeled data is scarce, most academic research has focused on employing semi-supervised learning strategies to develop machine learning (ML) models as soft sensors. Our research, on the other hand, goes in another direction. We aim to elaborate a framework that leverages the knowledge of domain experts and employs data augmentation techniques to build an enhanced fully labeled dataset that could be fed to any supervised ML algorithm to generate a quality soft sensor. We applied our framework together with Automated ML to train a model capable of predicting a specific key property associated with the production of Naphtha compounds in a refinery: the ASTM 95% distillation temperature of the Heavy Naphtha. Although our framework is model agnostic, we opted by using Automated ML for the optimization strategy, since it applies a diverse set of models to the dataset, reducing the bias of utilizing a single optimization algorithm. We evaluated the proposed framework on a case study conducted out in an industrial refinery in Brazil, where the previous model in production for estimating the ASTM 95% distillation temperature of the Heavy Naphtha was based entirely on the physicochemical knowledge of the process. By adopting our framework with Automated ML, we were capable of improving the R2 score by 120%. The resulting ML model is currently operating in real-time within the refinery, leading to significant economic gains.Translated Description (French)
Les processus industriels de raffinerie sont très complexes avec une dynamique non linéaire résultant de caractéristiques variables des matières premières et également de changements dans la priorisation des produits. Le long de ces procédés, il existe des propriétés clés des composés intermédiaires qui doivent être surveillées et contrôlées car elles affectent directement la qualité des produits finaux commercialisés par ces fabricants. Cependant, la plupart de ces propriétés ne peuvent être mesurées que par des analyses de laboratoire longues et coûteuses, qu'il est impossible d'obtenir à haute fréquence, comme cela est nécessaire pour les surveiller correctement. En ce sens, le développement de capteurs souples est le moyen le plus courant d'obtenir des estimations à haute fréquence pour ces mesures, aidant les systèmes de contrôle avancés à établir les points de consigne corrects pour les températures, les pressions et d'autres capteurs tout au long du processus de raffinage, contrôlant la qualité des produits finaux. Étant donné que la quantité de données étiquetées est rare, la plupart des recherches universitaires se sont concentrées sur l'utilisation de stratégies d'apprentissage semi-supervisé pour développer des modèles d'apprentissage automatique (ML) en tant que capteurs logiciels. Notre recherche, en revanche, va dans une autre direction. Nous visons à élaborer un cadre qui tire parti des connaissances des experts du domaine et utilise des techniques d'augmentation des données pour construire un ensemble de données amélioré et entièrement étiqueté qui pourrait être fourni à tout algorithme de ML supervisé pour générer un capteur logiciel de qualité. Nous avons appliqué notre cadre avec Automated ML pour former un modèle capable de prédire une propriété clé spécifique associée à la production de composés de naphta dans une raffinerie : la température de distillation ASTM à 95 % du naphta lourd. Bien que notre cadre soit agnostique aux modèles, nous avons choisi d'utiliser le ML automatisé pour la stratégie d'optimisation, car il applique un ensemble diversifié de modèles à l'ensemble de données, réduisant ainsi le biais lié à l'utilisation d'un seul algorithme d'optimisation. Nous avons évalué le cadre proposé sur une étude de cas menée dans une raffinerie industrielle au Brésil, où le modèle précédent en production pour estimer la température de distillation ASTM à 95% du naphta lourd était entièrement basé sur la connaissance physico-chimique du procédé. En adoptant notre cadre avec Automated ML, nous avons été capables d'améliorer le score R2 de 120 %. Le modèle ML qui en résulte fonctionne actuellement en temps réel au sein de la raffinerie, ce qui entraîne des gains économiques importants.Translated Description (Spanish)
Los procesos industriales de la refinería son muy complejos con una dinámica no lineal resultante de las diferentes características de la materia prima y también de los cambios en la priorización del producto. A lo largo de estos procesos, existen propiedades clave de los compuestos intermedios que deben ser monitoreadas y controladas ya que afectan directamente la calidad de los productos finales comercializados por estos fabricantes. Sin embargo, la mayoría de estas propiedades solo se pueden medir a través de análisis de laboratorio costosos y que consumen mucho tiempo, lo cual es imposible de obtener en altas frecuencias, como se requiere para monitorearlas adecuadamente. En este sentido, el desarrollo de sensores blandos es la forma más común de obtener estimaciones de alta frecuencia para estas mediciones, ayudando a los sistemas de control avanzados a establecer los puntos de ajuste correctos para temperaturas, presiones y otros sensores a lo largo del proceso de refinación, controlando la calidad de los productos finales. Dado que la cantidad de datos etiquetados es escasa, la mayoría de las investigaciones académicas se han centrado en emplear estrategias de aprendizaje semi-supervisado para desarrollar modelos de aprendizaje automático (ML) como sensores blandos. Nuestra investigación, por otro lado, va en otra dirección. Nuestro objetivo es elaborar un marco que aproveche el conocimiento de los expertos en el dominio y emplee técnicas de aumento de datos para construir un conjunto de datos mejorado completamente etiquetado que pueda alimentarse a cualquier algoritmo de ML supervisado para generar un sensor suave de calidad. Aplicamos nuestro marco junto con Automated ML para entrenar un modelo capaz de predecir una propiedad clave específica asociada con la producción de compuestos de nafta en una refinería: la temperatura de destilación ASTM 95% de la nafta pesada. Aunque nuestro marco es independiente del modelo, optamos por utilizar ML automatizado para la estrategia de optimización, ya que aplica un conjunto diverso de modelos al conjunto de datos, lo que reduce el sesgo de utilizar un solo algoritmo de optimización. Evaluamos el marco propuesto en un estudio de caso realizado en una refinería industrial en Brasil, donde el modelo anterior en producción para estimar la temperatura de destilación ASTM 95% de la nafta pesada se basó completamente en el conocimiento fisicoquímico del proceso. Al adoptar nuestro marco con ML automatizado, fuimos capaces de mejorar la puntuación R2 en un 120%. El modelo de ML resultante está operando actualmente en tiempo real dentro de la refinería, lo que lleva a ganancias económicas significativas.Additional details
Additional titles
- Translated title (Arabic)
- إطار لتعزيز نماذج تعلم أجهزة الاستشعار الناعمة الصناعية
- Translated title (English)
- A framework for enhancing industrial soft sensor learning models
- Translated title (French)
- Un cadre pour améliorer les modèles industriels d'apprentissage par capteurs souples
- Translated title (Spanish)
- Un marco para mejorar los modelos industriales de aprendizaje de sensores blandos
Identifiers
- Other
- https://openalex.org/W4384917905
- DOI
- 10.1016/j.dche.2023.100112
            
              References
            
          
        - https://openalex.org/W1164930623
- https://openalex.org/W1483592191
- https://openalex.org/W1493009343
- https://openalex.org/W1983320747
- https://openalex.org/W2096976414
- https://openalex.org/W2101674911
- https://openalex.org/W2106401878
- https://openalex.org/W2111072639
- https://openalex.org/W2136504847
- https://openalex.org/W2295249686
- https://openalex.org/W2335899954
- https://openalex.org/W2496566581
- https://openalex.org/W2509008543
- https://openalex.org/W2540224322
- https://openalex.org/W2570822839
- https://openalex.org/W2683785459
- https://openalex.org/W2766725700
- https://openalex.org/W2805403726
- https://openalex.org/W2810016643
- https://openalex.org/W2966284335
- https://openalex.org/W3015966228
- https://openalex.org/W3190052090
- https://openalex.org/W4220904807
- https://openalex.org/W4226226325
- https://openalex.org/W4236706032
- https://openalex.org/W57680428