Application of reinforcement learning algorithms in managing renewable energy systems

Кудин Павел Сергеевич; Kudin Pavel Sergeevic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/39806

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Михеев Викентий Сергеевич	ru_RU
dc.contributor.advisor	Miheev Vikentij Sergeevic	en_GB
dc.contributor.author	Кудин Павел Сергеевич	ru_RU
dc.contributor.author	Kudin Pavel Sergeevic	en_GB
dc.contributor.editor	Петросян Ованес Леонович	ru_RU
dc.contributor.editor	Petrosan Ovanes Leonovic	en_GB
dc.date.accessioned	2023-04-06T21:48:40Z	-
dc.date.available	2023-04-06T21:48:40Z	-
dc.date.issued	2022
dc.identifier.other	056669	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/39806	-
dc.description.abstract	В данной работе рассматривается проблема оптимального планирования зарядки и разрядки аккумуляторной батареи, а также обмена с энергетическим рынком с целью минимизации финансовых затрат на электроэнергию при условиях соблюдения ограничений системы, емкости накопителя и соблюдения энергетического баланса. Исторические данные для задачи были предоставлены в открытый доступ инжиниринговой компанией Schneider Electric в рамках соревнования Power Laws, в котором участники продемонстрировали методы, основанные на детерминистических подходах. Это не позволяет применять их в рамках реальных индустриальных задач, а также имеет серьезный недостаток в виде накопления ошибок при наличии плохих прогнозных значений, содержащихся в исторических данных. Автором предлагается альтернативный подход к решению задачи, основанный на методах обучения с подкреплением (RL), главным преимуществом которых, помимо возможности работать с множеством неопределенностей и обучения на эмпирических моделях рассматриваемой проблемы, является умение агента адаптироваться в среде при изменении входных данных и переобучаться в случае возникновения непредвиденных ситуаций. В результате работы было произведено обучение 3 моделей обучения с подкреплением с использованием интерфейса Ray: проксимальная оптимизация политики (PPO), актор-критик асинхронного преимущества (A3C), градиент политики (PG). Автором была выполнена визуализация процесса обучения используемых алгоритмов, проведено сравнение итоговых затрат по сравнению с результатами смешанного целочисленного линейного программирования (MILP), сделаны соответствующие выводы касательно преимуществ обучения с подкреплением при решении задач планирования батареи в энергосистемах перед детерминистическими подходами.	ru_RU
dc.description.abstract	This paper considers the problem of optimal planning for charging and discharging the battery, as well as the exchange with the energy market in order to minimize the financial costs of electricity, subject to the limitations of the system, the storage device and the observance of the energy balance. Historical data for the problem was made publicly available by the engineering company Schneider Electric as part of the Power Laws competition, in which participants demonstrated methods based on deterministic approaches. This does not allow them to be applied to real industrial problems, and also has a serious drawback in the form of error accumulation in the presence of bad predictive values contained in historical data. The author proposes an alternative approach to solving the problem, based on reinforcement learning (RL) methods, the main advantage of which, in addition to the ability to work with many uncertainties and learning from empirical models of the problem under consideration, is the ability of the agent to adapt to the environment when the input data changes and retrain in case of unforeseen situations. . As a result of the work, 3 reinforcement learning models were trained using the Ray interface: Proximal Policy Optimization (PPO), Asynchronous Advantage Actor-Critic (A3C), Policy Gradient (PG). The author visualized the learning process of the algorithms used, compared the total costs compared to the results of mixed integer linear programming (MILP), made appropriate conclusions regarding the advantages of reinforcement learning in solving battery planning problems in power systems over deterministic approaches.	en_GB
dc.language.iso	ru
dc.subject	обучение с подкреплением	ru_RU
dc.subject	машинное обучение	ru_RU
dc.subject	энергоменеджмент	ru_RU
dc.subject	системы электроснабжения	ru_RU
dc.subject	возобновляемые источники энергии	ru_RU
dc.subject	планирование графика использования батареи	ru_RU
dc.subject	PPO	ru_RU
dc.subject	A3C	ru_RU
dc.subject	PG	ru_RU
dc.subject	интерфейс программирования приложений Ray	ru_RU
dc.subject	reinforcement learning	en_GB
dc.subject	machine learning	en_GB
dc.subject	energy management	en_GB
dc.subject	energy systems	en_GB
dc.subject	renewable energy	en_GB
dc.subject	battery scheduling	en_GB
dc.subject	PPO	en_GB
dc.subject	A3C	en_GB
dc.subject	PG	en_GB
dc.subject	application programming interface Ray	en_GB
dc.title	Application of reinforcement learning algorithms in managing renewable energy systems	en_GB
dc.title.alternative	Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
diploma.pdf	Article	2,16 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv__2_.pdf	ReviewSV	274,53 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета