Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/25983
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorДавыденко Александр Александровичru_RU
dc.contributor.advisorDavydenko Aleksandr Aleksandrovicen_GB
dc.contributor.authorОмаров Руслан Зулфигаровичru_RU
dc.contributor.authorOmarov Ruslan Zulfigarovicen_GB
dc.contributor.editorБлеканов Иван Станиславовичru_RU
dc.contributor.editorBlekanov Ivan Stanislavovicen_GB
dc.date.accessioned2021-03-24T15:08:45Z-
dc.date.available2021-03-24T15:08:45Z-
dc.date.issued2019
dc.identifier.other049209en_GB
dc.identifier.urihttp://hdl.handle.net/11701/25983-
dc.description.abstractВ данной выпускной квалификационной работе проведено исследование применения алгоритмов, основанных на байесовских бандитах, к некоторому классу задач рекомендации контента. В первой главе проведен обзор существующих решений. Среди них описаны методы коллаборативной фильтрации, латентное моделирование и графовые алгоритмы построения рекомендательных систем. Во второй главе подробно рассмотрены некоторые алгоритмы многоруких бандитов, которые были реализованы и протестированы в рамках данного исследования. К ним относятся e-greedy, UCB1, disjoint-linUCB, hybrid-linUCB. Все вышеупомянутые алгоритмы можно отнести к методам машинного обучения с подкреплением. Такие модели обучаются непосредственно при взаимодействии со средой. Однако в данной работе рассмотрен класс задач рекомендации новостей и групп в различных площадках. В связи с этим оценивание качества алгоритмов в реальной среде невозможно ввиду экономических ограничений и потери прибыли на начальных этапах из-за необученности моделей. В связи с этим в третьей главе рассмотрен метод offline оценки качества алгоритмов многоруких бандитов, который основан на использовании историй показов пользователям новостей и групп. При этом для получения несмещенных оценок необходимо, чтобы все показы поступали из равномерного распределения. В четвертой главе решается тестовая задача, суть которой - рекомендация новостей на главной странице Yahoo. Основной причиной рассмотрения данной задачи являлась проверка правильности и эффективности построения программного комплекса, а также получение оценок скорости сходимости алгоритмов. В пятой главе рассмотрена задача рекомендации групп в социальной сети Одноклассники, которая предоставила необходимые данные и ресурсы. В рамках этой задачи дополнительно был реализован инструментарий для предобработки и уменьшения размерности данных из-за чувствительности бандитских моделей. Также в этой главе приведены результаты полученных экспериментов, которые свидетельствуют, что применение многоруких бандитов в задаче Одноклассников приемлемо, но требует большого внимания к данным и ресурсам. Кроме того, обучение моделей может занять довольно длительное время.ru_RU
dc.description.abstractIn this work, a study was conducted of applying algorithms based on Bayesian bandits to a certain class of content recommendation tasks. The first chapter reviews existing solutions, models of which are different from the aforementioned bandits. Among them are described the methods of collaborative filtering, latent modeling and graph algorithms for constructing recommender systems. In the second chapter, some algorithms of multi-armed bandits, which were implemented and tested in the framework of this study, are discussed in detail. These include e-greedy, UCB1, disjoint-linUCB, hybrid-linUCB. All the above algorithms can be attributed to the methods of machine learning with reinforcement. Such models are trained directly in their interaction with the environment. However, this paper considers the class of tasks for recommending news and groups in various sites. In this regard, assessment of the quality of algorithms in a real environment is impossible due to economic constraints and loss of profits in the initial stages due to the lack of knowledge of the models. In this regard, in the third chapter, the method of offline evaluation of the quality of the algorithms of multi-armed bandits is considered, which is based on the use of stories showing users news and groups. In this case, to obtain unbiased estimates, it is necessary that all impressions come from a uniform distribution. In the fourth chapter of the test task, which is the recommendation of the news on the main page of Yahoo. The main reason for the consideration of this problem was to check the correctness and efficiency of building a software package, as well as to obtain estimates of the rate of convergence of the algorithms. The fifth chapter describes the task of recommending groups on the Odnoklassniki social network, which provided the necessary data and resources. As part of this task, an additional toolkit has been implemented for preprocessing and reducing data dimensionality due to the sensitivity of bandit models. Also in this chapter, the results of the experiments that show that the use of multi-armed thugs in the Odnoklassniki problem is acceptable, but requires great attention to data and resources. In addition, learning models can take quite a long time.en_GB
dc.language.isoru
dc.subjectобучение с подкреплениемru_RU
dc.subjectрекомендательные системыru_RU
dc.subjectмногорукие бандитыru_RU
dc.subjectхолодный стартru_RU
dc.subjectreinforcement learningen_GB
dc.subjectrecommender systemsen_GB
dc.subjectmulti-armed banditsen_GB
dc.subjectcold-starten_GB
dc.titleBayesian reinforcement learning for content recommendationsen_GB
dc.title.alternativeПрименение методов байесовского обучения с подкреплением для решения некоторого класса задач рекомендации контентаru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
diplomFinal.pdfArticle1,03 MBAdobe PDFПросмотреть/Открыть
reviewSV_Otzyv_Omarova_.pdfReviewSV193,65 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.