Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/30474
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorСироткин Александр Владимировичru_RU
dc.contributor.advisorSirotkin Aleksandr Vladimirovicen_GB
dc.contributor.authorТыщук Кирилл Ильичru_RU
dc.contributor.authorTysuk Kirill Ilicen_GB
dc.contributor.editorНиколенко Сергей Игоревичru_RU
dc.contributor.editorNikolenko Sergej Igorevicen_GB
dc.date.accessioned2021-07-31T18:26:43Z-
dc.date.available2021-07-31T18:26:43Z-
dc.date.issued2021
dc.identifier.other062490en_GB
dc.identifier.urihttp://hdl.handle.net/11701/30474-
dc.description.abstractОдной из интересных открытых проблем из области обучения с подкреплением является обработка демонстраций эксперта, выполняющего определённую задачу, с целью более эффективного обучения новых агентов выполнять схожие задачи. Один из возможных подходов -- выделение из экспертных данных крупных абстракцией или шаблонов, общих между всеми задачами. Это подобно тому, как мы, понаблюдав за кем-то, занятым игрой, можем в общих чертах понять, что в ней происходит, и, когда нам доведётся играть самим, быстро разобраться в происходящем. В данной работе был разработан метод на основе ранжирующей модели DSSM, а также среда и инструменты для изучения его достоинств и недостатков. По итогам анализа, базовая модель была доработана. Полученные модели показали хорошее качество на синтетических данных. Код и данные экспериментов доступны на GitHub.ru_RU
dc.description.abstractOne of the intriguing open challenges in the field of Reinforcement Learning is the processing of expert demonstrations data with the purpose of more efficient training of new agents to perform similar tasks. One of the possible approaches is the extraction of macro-abstractions or patterns that are common to all of the demonstrated tasks. It is similar to a situation, in which we observe someone playing a game, get a rough concept of what is going on there and, when we get to play, learn very fast. In this work a method based on a ranking DSSM model is implemented along with the environment and instruments for studying its advantages and limitations. Taking into account the results of the analysis, the baseline model is refined. The resulting models show decent quality on a synthetic dataset. Code and experiments data are available on GitHub.en_GB
dc.language.isoru
dc.subjectобучение с подкреплениемru_RU
dc.subjectиерархическое обучение с подкреплениемru_RU
dc.subjectнейронные сетиru_RU
dc.subjectreinforcement learningen_GB
dc.subjecthierarchical reinforcement learningen_GB
dc.subjectneural networksen_GB
dc.titleLatent pattern discovery in reinforcement learningen_GB
dc.title.alternativeОбнаружение скрытых шаблонов в обучении с подкреплениемru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
Thesis.pdfArticle2,51 MBAdobe PDFПросмотреть/Открыть
reviewSV_KirillTyschukReviewSupervisor.pdfReviewSV47,37 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.