Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/39806
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Михеев Викентий Сергеевич | ru_RU |
dc.contributor.advisor | Miheev Vikentij Sergeevic | en_GB |
dc.contributor.author | Кудин Павел Сергеевич | ru_RU |
dc.contributor.author | Kudin Pavel Sergeevic | en_GB |
dc.contributor.editor | Петросян Ованес Леонович | ru_RU |
dc.contributor.editor | Petrosan Ovanes Leonovic | en_GB |
dc.date.accessioned | 2023-04-06T21:48:40Z | - |
dc.date.available | 2023-04-06T21:48:40Z | - |
dc.date.issued | 2022 | |
dc.identifier.other | 056669 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/39806 | - |
dc.description.abstract | В данной работе рассматривается проблема оптимального планирования зарядки и разрядки аккумуляторной батареи, а также обмена с энергетическим рынком с целью минимизации финансовых затрат на электроэнергию при условиях соблюдения ограничений системы, емкости накопителя и соблюдения энергетического баланса. Исторические данные для задачи были предоставлены в открытый доступ инжиниринговой компанией Schneider Electric в рамках соревнования Power Laws, в котором участники продемонстрировали методы, основанные на детерминистических подходах. Это не позволяет применять их в рамках реальных индустриальных задач, а также имеет серьезный недостаток в виде накопления ошибок при наличии плохих прогнозных значений, содержащихся в исторических данных. Автором предлагается альтернативный подход к решению задачи, основанный на методах обучения с подкреплением (RL), главным преимуществом которых, помимо возможности работать с множеством неопределенностей и обучения на эмпирических моделях рассматриваемой проблемы, является умение агента адаптироваться в среде при изменении входных данных и переобучаться в случае возникновения непредвиденных ситуаций. В результате работы было произведено обучение 3 моделей обучения с подкреплением с использованием интерфейса Ray: проксимальная оптимизация политики (PPO), актор-критик асинхронного преимущества (A3C), градиент политики (PG). Автором была выполнена визуализация процесса обучения используемых алгоритмов, проведено сравнение итоговых затрат по сравнению с результатами смешанного целочисленного линейного программирования (MILP), сделаны соответствующие выводы касательно преимуществ обучения с подкреплением при решении задач планирования батареи в энергосистемах перед детерминистическими подходами. | ru_RU |
dc.description.abstract | This paper considers the problem of optimal planning for charging and discharging the battery, as well as the exchange with the energy market in order to minimize the financial costs of electricity, subject to the limitations of the system, the storage device and the observance of the energy balance. Historical data for the problem was made publicly available by the engineering company Schneider Electric as part of the Power Laws competition, in which participants demonstrated methods based on deterministic approaches. This does not allow them to be applied to real industrial problems, and also has a serious drawback in the form of error accumulation in the presence of bad predictive values contained in historical data. The author proposes an alternative approach to solving the problem, based on reinforcement learning (RL) methods, the main advantage of which, in addition to the ability to work with many uncertainties and learning from empirical models of the problem under consideration, is the ability of the agent to adapt to the environment when the input data changes and retrain in case of unforeseen situations. . As a result of the work, 3 reinforcement learning models were trained using the Ray interface: Proximal Policy Optimization (PPO), Asynchronous Advantage Actor-Critic (A3C), Policy Gradient (PG). The author visualized the learning process of the algorithms used, compared the total costs compared to the results of mixed integer linear programming (MILP), made appropriate conclusions regarding the advantages of reinforcement learning in solving battery planning problems in power systems over deterministic approaches. | en_GB |
dc.language.iso | ru | |
dc.subject | обучение с подкреплением | ru_RU |
dc.subject | машинное обучение | ru_RU |
dc.subject | энергоменеджмент | ru_RU |
dc.subject | системы электроснабжения | ru_RU |
dc.subject | возобновляемые источники энергии | ru_RU |
dc.subject | планирование графика использования батареи | ru_RU |
dc.subject | PPO | ru_RU |
dc.subject | A3C | ru_RU |
dc.subject | PG | ru_RU |
dc.subject | интерфейс программирования приложений Ray | ru_RU |
dc.subject | reinforcement learning | en_GB |
dc.subject | machine learning | en_GB |
dc.subject | energy management | en_GB |
dc.subject | energy systems | en_GB |
dc.subject | renewable energy | en_GB |
dc.subject | battery scheduling | en_GB |
dc.subject | PPO | en_GB |
dc.subject | A3C | en_GB |
dc.subject | PG | en_GB |
dc.subject | application programming interface Ray | en_GB |
dc.title | Application of reinforcement learning algorithms in managing renewable energy systems | en_GB |
dc.title.alternative | Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии | ru_RU |
Располагается в коллекциях: | MASTER'S STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
diploma.pdf | Article | 2,16 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Otzyv__2_.pdf | ReviewSV | 274,53 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.