Bayesian reinforcement learning for content recommendations

Омаров Руслан Зулфигарович; Omarov Ruslan Zulfigarovic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/25983

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Давыденко Александр Александрович	ru_RU
dc.contributor.advisor	Davydenko Aleksandr Aleksandrovic	en_GB
dc.contributor.author	Омаров Руслан Зулфигарович	ru_RU
dc.contributor.author	Omarov Ruslan Zulfigarovic	en_GB
dc.contributor.editor	Блеканов Иван Станиславович	ru_RU
dc.contributor.editor	Blekanov Ivan Stanislavovic	en_GB
dc.date.accessioned	2021-03-24T15:08:45Z	-
dc.date.available	2021-03-24T15:08:45Z	-
dc.date.issued	2019
dc.identifier.other	049209	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/25983	-
dc.description.abstract	В данной выпускной квалификационной работе проведено исследование применения алгоритмов, основанных на байесовских бандитах, к некоторому классу задач рекомендации контента. В первой главе проведен обзор существующих решений. Среди них описаны методы коллаборативной фильтрации, латентное моделирование и графовые алгоритмы построения рекомендательных систем. Во второй главе подробно рассмотрены некоторые алгоритмы многоруких бандитов, которые были реализованы и протестированы в рамках данного исследования. К ним относятся e-greedy, UCB1, disjoint-linUCB, hybrid-linUCB. Все вышеупомянутые алгоритмы можно отнести к методам машинного обучения с подкреплением. Такие модели обучаются непосредственно при взаимодействии со средой. Однако в данной работе рассмотрен класс задач рекомендации новостей и групп в различных площадках. В связи с этим оценивание качества алгоритмов в реальной среде невозможно ввиду экономических ограничений и потери прибыли на начальных этапах из-за необученности моделей. В связи с этим в третьей главе рассмотрен метод offline оценки качества алгоритмов многоруких бандитов, который основан на использовании историй показов пользователям новостей и групп. При этом для получения несмещенных оценок необходимо, чтобы все показы поступали из равномерного распределения. В четвертой главе решается тестовая задача, суть которой - рекомендация новостей на главной странице Yahoo. Основной причиной рассмотрения данной задачи являлась проверка правильности и эффективности построения программного комплекса, а также получение оценок скорости сходимости алгоритмов. В пятой главе рассмотрена задача рекомендации групп в социальной сети Одноклассники, которая предоставила необходимые данные и ресурсы. В рамках этой задачи дополнительно был реализован инструментарий для предобработки и уменьшения размерности данных из-за чувствительности бандитских моделей. Также в этой главе приведены результаты полученных экспериментов, которые свидетельствуют, что применение многоруких бандитов в задаче Одноклассников приемлемо, но требует большого внимания к данным и ресурсам. Кроме того, обучение моделей может занять довольно длительное время.	ru_RU
dc.description.abstract	In this work, a study was conducted of applying algorithms based on Bayesian bandits to a certain class of content recommendation tasks. The first chapter reviews existing solutions, models of which are different from the aforementioned bandits. Among them are described the methods of collaborative filtering, latent modeling and graph algorithms for constructing recommender systems. In the second chapter, some algorithms of multi-armed bandits, which were implemented and tested in the framework of this study, are discussed in detail. These include e-greedy, UCB1, disjoint-linUCB, hybrid-linUCB. All the above algorithms can be attributed to the methods of machine learning with reinforcement. Such models are trained directly in their interaction with the environment. However, this paper considers the class of tasks for recommending news and groups in various sites. In this regard, assessment of the quality of algorithms in a real environment is impossible due to economic constraints and loss of profits in the initial stages due to the lack of knowledge of the models. In this regard, in the third chapter, the method of offline evaluation of the quality of the algorithms of multi-armed bandits is considered, which is based on the use of stories showing users news and groups. In this case, to obtain unbiased estimates, it is necessary that all impressions come from a uniform distribution. In the fourth chapter of the test task, which is the recommendation of the news on the main page of Yahoo. The main reason for the consideration of this problem was to check the correctness and efficiency of building a software package, as well as to obtain estimates of the rate of convergence of the algorithms. The fifth chapter describes the task of recommending groups on the Odnoklassniki social network, which provided the necessary data and resources. As part of this task, an additional toolkit has been implemented for preprocessing and reducing data dimensionality due to the sensitivity of bandit models. Also in this chapter, the results of the experiments that show that the use of multi-armed thugs in the Odnoklassniki problem is acceptable, but requires great attention to data and resources. In addition, learning models can take quite a long time.	en_GB
dc.language.iso	ru
dc.subject	обучение с подкреплением	ru_RU
dc.subject	рекомендательные системы	ru_RU
dc.subject	многорукие бандиты	ru_RU
dc.subject	холодный старт	ru_RU
dc.subject	reinforcement learning	en_GB
dc.subject	recommender systems	en_GB
dc.subject	multi-armed bandits	en_GB
dc.subject	cold-start	en_GB
dc.title	Bayesian reinforcement learning for content recommendations	en_GB
dc.title.alternative	Применение методов байесовского обучения с подкреплением для решения некоторого класса задач рекомендации контента	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
diplomFinal.pdf	Article	1,03 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_Omarova_.pdf	ReviewSV	193,65 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета