Latent pattern discovery in reinforcement learning

Тыщук Кирилл Ильич; Tysuk Kirill Ilic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/30474

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Сироткин Александр Владимирович	ru_RU
dc.contributor.advisor	Sirotkin Aleksandr Vladimirovic	en_GB
dc.contributor.author	Тыщук Кирилл Ильич	ru_RU
dc.contributor.author	Tysuk Kirill Ilic	en_GB
dc.contributor.editor	Николенко Сергей Игоревич	ru_RU
dc.contributor.editor	Nikolenko Sergej Igorevic	en_GB
dc.date.accessioned	2021-07-31T18:26:43Z	-
dc.date.available	2021-07-31T18:26:43Z	-
dc.date.issued	2021
dc.identifier.other	062490	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/30474	-
dc.description.abstract	Одной из интересных открытых проблем из области обучения с подкреплением является обработка демонстраций эксперта, выполняющего определённую задачу, с целью более эффективного обучения новых агентов выполнять схожие задачи. Один из возможных подходов -- выделение из экспертных данных крупных абстракцией или шаблонов, общих между всеми задачами. Это подобно тому, как мы, понаблюдав за кем-то, занятым игрой, можем в общих чертах понять, что в ней происходит, и, когда нам доведётся играть самим, быстро разобраться в происходящем. В данной работе был разработан метод на основе ранжирующей модели DSSM, а также среда и инструменты для изучения его достоинств и недостатков. По итогам анализа, базовая модель была доработана. Полученные модели показали хорошее качество на синтетических данных. Код и данные экспериментов доступны на GitHub.	ru_RU
dc.description.abstract	One of the intriguing open challenges in the field of Reinforcement Learning is the processing of expert demonstrations data with the purpose of more efficient training of new agents to perform similar tasks. One of the possible approaches is the extraction of macro-abstractions or patterns that are common to all of the demonstrated tasks. It is similar to a situation, in which we observe someone playing a game, get a rough concept of what is going on there and, when we get to play, learn very fast. In this work a method based on a ranking DSSM model is implemented along with the environment and instruments for studying its advantages and limitations. Taking into account the results of the analysis, the baseline model is refined. The resulting models show decent quality on a synthetic dataset. Code and experiments data are available on GitHub.	en_GB
dc.language.iso	ru
dc.subject	обучение с подкреплением	ru_RU
dc.subject	иерархическое обучение с подкреплением	ru_RU
dc.subject	нейронные сети	ru_RU
dc.subject	reinforcement learning	en_GB
dc.subject	hierarchical reinforcement learning	en_GB
dc.subject	neural networks	en_GB
dc.title	Latent pattern discovery in reinforcement learning	en_GB
dc.title.alternative	Обнаружение скрытых шаблонов в обучении с подкреплением	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Thesis.pdf	Article	2,51 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_KirillTyschukReviewSupervisor.pdf	ReviewSV	47,37 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета