Quantifying the impact of non-stationarity in reinforcement learning-based traffic signal control
- 1. Universidade Federal do Rio Grande do Sul
- 2. University of Massachusetts Amherst
Description
In reinforcement learning (RL), dealing with non-stationarity is a challenging issue. However, some domains such as traffic optimization are inherently non-stationary. Causes for and effects of this are manifold. In particular, when dealing with traffic signal controls, addressing non-stationarity is key since traffic conditions change over time and as a function of traffic control decisions taken in other parts of a network. In this paper we analyze the effects that different sources of non-stationarity have in a network of traffic signals, in which each signal is modeled as a learning agent. More precisely, we study both the effects of changing the context in which an agent learns (e.g., a change in flow rates experienced by it), as well as the effects of reducing agent observability of the true environment state. Partial observability may cause distinct states (in which distinct actions are optimal) to be seen as the same by the traffic signal agents. This, in turn, may lead to sub-optimal performance. We show that the lack of suitable sensors to provide a representative observation of the real state seems to affect the performance more drastically than the changes to the underlying traffic patterns.
Translated Descriptions
Translated Description (Arabic)
في التعلم التعزيزي (RL)، يعد التعامل مع عدم الثبات مشكلة صعبة. ومع ذلك، فإن بعض المجالات مثل تحسين حركة المرور هي بطبيعتها غير ثابتة. أسباب ذلك وآثاره متعددة. على وجه الخصوص، عند التعامل مع ضوابط إشارة المرور، فإن معالجة عدم الثبات أمر أساسي لأن ظروف حركة المرور تتغير بمرور الوقت وكوظيفة لقرارات مراقبة حركة المرور المتخذة في أجزاء أخرى من الشبكة. في هذه الورقة، نحلل التأثيرات التي تحدثها المصادر المختلفة لعدم الثبات في شبكة من إشارات المرور، حيث يتم نمذجة كل إشارة كعامل تعلم. بتعبير أدق، ندرس آثار تغيير السياق الذي يتعلم فيه العامل (على سبيل المثال، تغيير في معدلات التدفق التي يعاني منها)، وكذلك آثار تقليل قابلية ملاحظة العامل لحالة البيئة الحقيقية. قد تتسبب إمكانية المراقبة الجزئية في ظهور حالات متميزة (حيث تكون الإجراءات المتميزة هي المثلى) على أنها نفسها من قبل وكلاء إشارات المرور. وهذا بدوره قد يؤدي إلى أداء دون المستوى الأمثل. نظهر أن الافتقار إلى أجهزة استشعار مناسبة لتوفير ملاحظة تمثيلية للحالة الحقيقية يبدو أنه يؤثر على الأداء بشكل أكبر من التغييرات في أنماط حركة المرور الأساسية.Translated Description (French)
Dans l'apprentissage par renforcement (AR), le traitement de la non-stationnarité est un problème difficile. Cependant, certains domaines tels que l'optimisation du trafic sont intrinsèquement non stationnaires. Les causes et les effets de cette situation sont multiples. En particulier, lorsqu'il s'agit de contrôles de signaux de trafic, il est essentiel de traiter la non-stationnarité car les conditions de trafic changent au fil du temps et en fonction des décisions de contrôle de trafic prises dans d'autres parties d'un réseau. Dans cet article, nous analysons les effets que différentes sources de non-stationnarité ont dans un réseau de feux de circulation, dans lequel chaque signal est modélisé comme un agent d'apprentissage. Plus précisément, nous étudions à la fois les effets du changement de contexte dans lequel un agent apprend (par exemple, un changement de débit qu'il subit), ainsi que les effets de l'observabilité de l'agent réducteur de l'état réel de l'environnement. L'observabilité partielle peut faire en sorte que des états distincts (dans lesquels des actions distinctes sont optimales) soient considérés comme identiques par les agents des feux de circulation. Ceci, à son tour, peut conduire à des performances sous-optimales. Nous montrons que le manque de capteurs appropriés pour fournir une observation représentative de l'état réel semble affecter les performances de manière plus drastique que les changements des modèles de trafic sous-jacents.Translated Description (Spanish)
En el aprendizaje por refuerzo (RL), lidiar con la no estacionariedad es un problema difícil. Sin embargo, algunos dominios, como la optimización del tráfico, son inherentemente no estacionarios. Las causas y los efectos de esto son múltiples. En particular, cuando se trata de controles de señales de tráfico, abordar la no estacionariedad es clave, ya que las condiciones del tráfico cambian con el tiempo y en función de las decisiones de control de tráfico tomadas en otras partes de una red. En este trabajo analizamos los efectos que las diferentes fuentes de no estacionariedad tienen en una red de señales de tráfico, en la que cada señal se modela como un agente de aprendizaje. Más precisamente, estudiamos tanto los efectos de cambiar el contexto en el que un agente aprende (por ejemplo, un cambio en los caudales experimentados por él), como los efectos de la observabilidad del agente reductor del verdadero estado del entorno. La observabilidad parcial puede hacer que los agentes de señales de tráfico vean distintos estados (en los que las acciones distintas son óptimas) como iguales. Esto, a su vez, puede conducir a un rendimiento subóptimo. Mostramos que la falta de sensores adecuados para proporcionar una observación representativa del estado real parece afectar el rendimiento más drásticamente que los cambios en los patrones de tráfico subyacentes.Files
2004.04778.pdf
Files
(1.9 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:04b41ca8e0052ea37e1bd9019d9a2cba
|
1.9 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- القياس الكمي لتأثير عدم الثبات في التحكم في إشارة المرور القائمة على التعلم المعزز
- Translated title (French)
- Quantifier l'impact de la non-stationnarité dans le contrôle des feux de circulation basé sur l'apprentissage du renforcement
- Translated title (Spanish)
- Cuantificación del impacto de la no estacionariedad en el control de señales de tráfico basado en el aprendizaje de refuerzo
Identifiers
- Other
- https://openalex.org/W3016110208
- DOI
- 10.7717/peerj-cs.575
References
- https://openalex.org/W1641379095
- https://openalex.org/W2020070197
- https://openalex.org/W20499850
- https://openalex.org/W2054314161
- https://openalex.org/W2088595989
- https://openalex.org/W2088956500
- https://openalex.org/W2099618002
- https://openalex.org/W2115524942
- https://openalex.org/W2137647991
- https://openalex.org/W2156371714
- https://openalex.org/W2168342951
- https://openalex.org/W2480177474
- https://openalex.org/W2725582697
- https://openalex.org/W2740377041
- https://openalex.org/W2801573006
- https://openalex.org/W2811324271
- https://openalex.org/W2903709398
- https://openalex.org/W2914316962
- https://openalex.org/W2939228328
- https://openalex.org/W2952265723
- https://openalex.org/W2967805688
- https://openalex.org/W3011120880
- https://openalex.org/W3027406032
- https://openalex.org/W3088483865
- https://openalex.org/W3194369639
- https://openalex.org/W4214717370
- https://openalex.org/W4233696721
- https://openalex.org/W4287179901