Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/30474
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Сироткин Александр Владимирович | ru_RU |
dc.contributor.advisor | Sirotkin Aleksandr Vladimirovic | en_GB |
dc.contributor.author | Тыщук Кирилл Ильич | ru_RU |
dc.contributor.author | Tysuk Kirill Ilic | en_GB |
dc.contributor.editor | Николенко Сергей Игоревич | ru_RU |
dc.contributor.editor | Nikolenko Sergej Igorevic | en_GB |
dc.date.accessioned | 2021-07-31T18:26:43Z | - |
dc.date.available | 2021-07-31T18:26:43Z | - |
dc.date.issued | 2021 | |
dc.identifier.other | 062490 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/30474 | - |
dc.description.abstract | Одной из интересных открытых проблем из области обучения с подкреплением является обработка демонстраций эксперта, выполняющего определённую задачу, с целью более эффективного обучения новых агентов выполнять схожие задачи. Один из возможных подходов -- выделение из экспертных данных крупных абстракцией или шаблонов, общих между всеми задачами. Это подобно тому, как мы, понаблюдав за кем-то, занятым игрой, можем в общих чертах понять, что в ней происходит, и, когда нам доведётся играть самим, быстро разобраться в происходящем. В данной работе был разработан метод на основе ранжирующей модели DSSM, а также среда и инструменты для изучения его достоинств и недостатков. По итогам анализа, базовая модель была доработана. Полученные модели показали хорошее качество на синтетических данных. Код и данные экспериментов доступны на GitHub. | ru_RU |
dc.description.abstract | One of the intriguing open challenges in the field of Reinforcement Learning is the processing of expert demonstrations data with the purpose of more efficient training of new agents to perform similar tasks. One of the possible approaches is the extraction of macro-abstractions or patterns that are common to all of the demonstrated tasks. It is similar to a situation, in which we observe someone playing a game, get a rough concept of what is going on there and, when we get to play, learn very fast. In this work a method based on a ranking DSSM model is implemented along with the environment and instruments for studying its advantages and limitations. Taking into account the results of the analysis, the baseline model is refined. The resulting models show decent quality on a synthetic dataset. Code and experiments data are available on GitHub. | en_GB |
dc.language.iso | ru | |
dc.subject | обучение с подкреплением | ru_RU |
dc.subject | иерархическое обучение с подкреплением | ru_RU |
dc.subject | нейронные сети | ru_RU |
dc.subject | reinforcement learning | en_GB |
dc.subject | hierarchical reinforcement learning | en_GB |
dc.subject | neural networks | en_GB |
dc.title | Latent pattern discovery in reinforcement learning | en_GB |
dc.title.alternative | Обнаружение скрытых шаблонов в обучении с подкреплением | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Thesis.pdf | Article | 2,51 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_KirillTyschukReviewSupervisor.pdf | ReviewSV | 47,37 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.