Published May 26, 2023 | Version v1
Publication Open

Impairment of arbitration between model-based and model-free reinforcement learning in obsessive–compulsive disorder

  • 1. South China Normal University
  • 2. Colorado State University
  • 3. Guangzhou Medical University
  • 4. Dankook University
  • 5. Korea Advanced Institute of Science and Technology
  • 6. Shenzhen University
  • 7. Ministry of Education of the People's Republic of China
  • 8. Shenzhen KangNing Hospital
  • 9. Jinzhou Kangning Hospital

Description

Obsessive-compulsive disorder (OCD) is characterized by an imbalance between goal-directed and habitual learning systems in behavioral control, but it is unclear whether these impairments are due to a single system abnormality of the goal-directed system or due to an impairment in a separate arbitration mechanism that selects which system controls behavior at each point in time.A total of 30 OCD patients and 120 healthy controls performed a 2-choice, 3-stage Markov decision-making paradigm. Reinforcement learning models were used to estimate goal-directed learning (as model-based reinforcement learning) and habitual learning (as model-free reinforcement learning). In general, 29 high Obsessive-Compulsive Inventory-Revised (OCI-R) score controls, 31 low OCI-R score controls, and all 30 OCD patients were selected for the analysis.Obsessive-compulsive disorder (OCD) patients showed less appropriate strategy choices than controls regardless of whether the OCI-R scores in the control subjects were high (p = 0.012) or low (p < 0.001), specifically showing a greater model-free strategy use in task conditions where the model-based strategy was optimal. Furthermore, OCD patients (p = 0.001) and control subjects with high OCI-R scores (H-OCI-R; p = 0.009) both showed greater system switching rather than consistent strategy use in task conditions where model-free use was optimal.These findings indicated an impaired arbitration mechanism for flexible adaptation to environmental demands in both OCD patients and healthy individuals reporting high OCI-R scores.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يتميز اضطراب الوسواس القهري (OCD) بعدم التوازن بين أنظمة التعلم الموجهة نحو الهدف وأنظمة التعلم المعتادة في التحكم السلوكي، ولكن من غير الواضح ما إذا كانت هذه الإعاقات ناتجة عن خلل في نظام واحد للنظام الموجه نحو الهدف أو بسبب ضعف في آلية تحكيم منفصلة تختار النظام الذي يتحكم في السلوك في كل نقطة زمنية. أجرى ما مجموعه 30 مريضًا بالوسواس القهري و 120 عنصر تحكم صحي نموذج ماركوف لصنع القرار من اختيارين وثلاث مراحل. تم استخدام نماذج التعلم المعزز لتقدير التعلم الموجه نحو الأهداف (كتعلم التعزيز القائم على النموذج) والتعلم المعتاد (كتعلم التعزيز الخالي من النموذج). بشكل عام، تم اختيار 29 عنصر تحكم بدرجة عالية في الجرد القهري (OCI - R)، و 31 عنصر تحكم بدرجة منخفضة في الجرد القهري القهري (OCI - R)، وتم اختيار جميع مرضى الوسواس القهري البالغ عددهم 30 مريضًا للتحليل. أظهر مرضى الاضطراب القهري القهري (OCD) خيارات استراتيجية أقل ملاءمة من الضوابط بغض النظر عما إذا كانت درجات الجرد القهري القهري (OCI - R) في الأشخاص الخاضعين للتحكم مرتفعة (p = 0.012) أو منخفضة (p < 0.001)، مما يدل على وجه التحديد على استخدام استراتيجية أكبر خالية من النماذج في ظروف المهمة حيث كانت الاستراتيجية القائمة على النموذج هي الأمثل. علاوة على ذلك، أظهر مرضى الوسواس القهري (p = 0.001) والأشخاص الخاضعين للرقابة الذين لديهم درجات عالية من OCI - R (H - OCI - R ؛ p = 0.009) تبديلًا أكبر للنظام بدلاً من الاستخدام الاستراتيجي المتسق في ظروف المهمة حيث كان الاستخدام الخالي من النماذج هو الأمثل. أشارت هذه النتائج إلى ضعف آلية التحكيم للتكيف المرن مع المتطلبات البيئية في كل من مرضى الوسواس القهري والأفراد الأصحاء الذين أبلغوا عن درجات عالية من OCI - R.

Translated Description (French)

Le trouble obsessionnel-compulsif (TOC) est caractérisé par un déséquilibre entre les systèmes d'apprentissage dirigés vers un objectif et les systèmes d'apprentissage habituels dans le contrôle comportemental, mais il n'est pas clair si ces déficiences sont dues à une anomalie unique du système dirigé vers un objectif ou à une déficience dans un mécanisme d'arbitrage distinct qui sélectionne quel système contrôle le comportement à chaque instant. Un total de 30 patients atteints de TOC et 120 témoins sains ont effectué un paradigme de prise de décision Markov à 2 choix et en 3 étapes. Des modèles d'apprentissage par renforcement ont été utilisés pour estimer l'apprentissage orienté vers les objectifs (comme l'apprentissage par renforcement basé sur un modèle) et l'apprentissage habituel (comme l'apprentissage par renforcement sans modèle). En général, 29 contrôles à score élevé de révision de l'inventaire obsessionnel-compulsif (OCI-R), 31 contrôles à score OCI-R faible et les 30 patients atteints de TOC ont été sélectionnés pour l'analyse. Les patients atteints de TOC ont montré des choix de stratégie moins appropriés que les contrôles, que les scores OCI-R chez les sujets témoins soient élevés (p = 0,012) ou faibles (p < 0,001), montrant spécifiquement une plus grande utilisation de la stratégie sans modèle dans les conditions de tâche où la stratégie basée sur le modèle était optimale. En outre, les patients atteints de TOC (p = 0,001) et les sujets témoins avec des scores OCI-R élevés (H-OCI-R ; p = 0,009) ont tous deux montré une plus grande commutation du système plutôt qu'une utilisation cohérente de la stratégie dans des conditions de tâche où l'utilisation sans modèle était optimale. Ces résultats ont indiqué un mécanisme d'arbitrage altéré pour une adaptation flexible aux exigences environnementales chez les patients atteints de TOC et les personnes en bonne santé signalant des scores OCI-R élevés.

Translated Description (Spanish)

El trastorno obsesivo-compulsivo (TOC) se caracteriza por un desequilibrio entre los sistemas de aprendizaje dirigidos a objetivos y habituales en el control del comportamiento, pero no está claro si estas deficiencias se deben a una anomalía del sistema único del sistema dirigido a objetivos o a una deficiencia en un mecanismo de arbitraje separado que selecciona qué sistema controla el comportamiento en cada momento. Un total de 30 pacientes con TOC y 120 controles sanos realizaron un paradigma de toma de decisiones de Markov de 2 opciones y 3 etapas. Se utilizaron modelos de aprendizaje de refuerzo para estimar el aprendizaje dirigido a objetivos (como aprendizaje de refuerzo basado en modelos) y el aprendizaje habitual (como aprendizaje de refuerzo sin modelos). En general, se seleccionaron 29 controles de puntuación alta revisada por el inventario obsesivo-compulsivo (OCI-R), 31 controles de puntuación OCI-R baja y los 30 pacientes con TOC para el análisis. Los pacientes con trastorno obsesivo-compulsivo (TOC) mostraron opciones de estrategia menos apropiadas que los controles, independientemente de si las puntuaciones OCI-R en los sujetos de control eran altas (p = 0,012) o bajas (p < 0,001), lo que muestra específicamente un mayor uso de la estrategia libre de modelos en condiciones de tarea en las que la estrategia basada en modelos era óptima. Además, los pacientes con TOC (p = 0,001) y los sujetos de control con puntuaciones altas de OCI-R (H-OCI-R; p = 0,009) mostraron un mayor cambio de sistema en lugar de un uso consistente de la estrategia en condiciones de tarea donde el uso sin modelo era óptimo. Estos hallazgos indicaron un mecanismo de arbitraje deteriorado para la adaptación flexible a las demandas ambientales tanto en pacientes con TOC como en individuos sanos que informaron puntuaciones altas de OCI-R.

Files

pdf.pdf

Files (1.6 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:9334a575ae2a585c625b5a63382d28c6
1.6 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
ضعف التحكيم بين التعلم التعزيزي القائم على النموذج والخالي من النموذج في اضطراب الوسواس القهري
Translated title (French)
Altération de l'arbitrage entre l'apprentissage par renforcement basé sur un modèle et l'apprentissage sans modèle dans le trouble obsessionnel-compulsif
Translated title (Spanish)
Deterioro del arbitraje entre el aprendizaje por refuerzo basado en modelos y libre de modelos en el trastorno obsesivo-compulsivo

Identifiers

Other
https://openalex.org/W4378385923
DOI
10.3389/fpsyt.2023.1162800

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1576713367
  • https://openalex.org/W1951616283
  • https://openalex.org/W1982923114
  • https://openalex.org/W1985748616
  • https://openalex.org/W1988699227
  • https://openalex.org/W2008005549
  • https://openalex.org/W2024991751
  • https://openalex.org/W2039051284
  • https://openalex.org/W2057001461
  • https://openalex.org/W2067495470
  • https://openalex.org/W2093106172
  • https://openalex.org/W2102803424
  • https://openalex.org/W2105112885
  • https://openalex.org/W2123822033
  • https://openalex.org/W2129299900
  • https://openalex.org/W2132598305
  • https://openalex.org/W2133351239
  • https://openalex.org/W2143594200
  • https://openalex.org/W2146676986
  • https://openalex.org/W2149565728
  • https://openalex.org/W2154636019
  • https://openalex.org/W2167362547
  • https://openalex.org/W2288341381
  • https://openalex.org/W2319178748
  • https://openalex.org/W2334646749
  • https://openalex.org/W2526753222
  • https://openalex.org/W2607171725
  • https://openalex.org/W2737966001
  • https://openalex.org/W2884912572
  • https://openalex.org/W2897987708
  • https://openalex.org/W2923045238
  • https://openalex.org/W2935509564
  • https://openalex.org/W2957704534
  • https://openalex.org/W2980271816
  • https://openalex.org/W2994652337
  • https://openalex.org/W3015878795
  • https://openalex.org/W3040440677
  • https://openalex.org/W3111607124
  • https://openalex.org/W3118376159
  • https://openalex.org/W3118678388
  • https://openalex.org/W3160559048
  • https://openalex.org/W3171418018
  • https://openalex.org/W4200422748
  • https://openalex.org/W4214717370
  • https://openalex.org/W4226454085
  • https://openalex.org/W4245880239