Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/26035
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorХмель Дмитрий Сергеевичru_RU
dc.contributor.advisorHmel Dmitrij Sergeevicen_GB
dc.contributor.authorТолмачев Виктор Александровичru_RU
dc.contributor.authorTolmacev Viktor Aleksandrovicen_GB
dc.contributor.editorБогданов Александр Владимировичru_RU
dc.contributor.editorBogdanov Aleksandr Vladimirovicen_GB
dc.date.accessioned2021-03-24T15:08:57Z-
dc.date.available2021-03-24T15:08:57Z-
dc.date.issued2019
dc.identifier.other050084en_GB
dc.identifier.urihttp://hdl.handle.net/11701/26035-
dc.description.abstractРазвитие сервисов социальных сетей вызвал интерес к прогнозированию скрытой информации из большого количества свободно доступного публичного контента. Задача определения скрытых пользовательских характеристик из имеющихся данных социальных сетей стала известна как задача персональной аналитики или профилирования пользователя. Для прогнозирования атрибутов пользователя, как правило, используется информация, которую пользователь оставил о себе в своем профиле, либо текстовая информация, извлеченная из постов пользователя. Однако, главная проблема в том, что никак не учитывается взаимосвязь между пользователями. В данной работе исследуются и применяются методы машинного обучения с учителем к задачам определения возраста и пола пользователя, используя информацию из профиля пользователя, а также методы, которые извлекают информацию из социального графа пользователя и представляют эту информацию в виде векторов – графовых эмбеддингов (DeepWalk и Node2Vec). Помимо этого реализована графовая нейронная сеть, которая решает проблемы алгоритмов DeepWalk и Node2Vec и способна обобщаться на динамические графы. В ходе работы были решены следующие задачи: выбор источника данных, предварительная обработка данных, исследование и реализация методов машинного обучения только для информации извлеченной из профиля пользователя, исследование и реализация методов машинного обучения используя информацию из социального графа, исследование и реализация графовой нейронной сети, а также сравнение полученных результатов. Структура работы имеет следующий вид. В первой главе дана краткая характеристика данных и описан процесс сбора этих данных. Также отражен процесс формирования исходных тренировочных выборок. Во второй главе описываются методы машинного обучения с учителем, а именно: линейная и логистическая регрессии, метод опорных векторов, случайный лес, k-ближайших соседей и градиентный бустинг. Помимо этого получены результаты этих методов, используя только информацию из профиля пользователя. В третьей главе описываются методы, которые способны выявить информацию из социального графа пользователя, а также получены результаты методов описанных во второй главе с помощью данной информации. В четвертой главе представлена основная концепция графовой нейронной сети, а также реализован алгоритм GraphSAGE. Результаты данного алгоритма были получены с использованием как CPU, так и GPU. По результатам проведенного анализа, применение графовых эмбеддингов дало прирост качества как в задаче определения возраста, так и в задаче определения пола. Использование графовой нейронной сети улучшило качество только в задаче определения пола пользователя.ru_RU
dc.description.abstractThe development of social networking services has aroused interest in predicting hidden information from a large amount of freely available public content. The task of determining hidden user characteristics from the existing data of social networks has become known as the task of personal analytics or user profiling. To predict user attributes, the information that users leave about themselves in the profile is used, or the information extracted from the posts of users. However, the main problem is that the relationship between users is not taken into account. In this paper, we study and apply supervised machine learning methods to the tasks of determining the age and gender of the user, using information from the user profile, as well as methods that extract information from the social graph of the user and present this information in the form of vectors - embeddings (DeepWalk and Node2Vec). In addition, a graph neural network is implemented, which solves the problems of the DeepWalk and Node2Vec algorithms and is able to be generalized to dynamic graphs. During the work, the following tasks were solved: selection of the data source, data preprocessing, research and implementation of machine learning methods only for information extracted from the user profile, research and implementation of machine learning methods using information from the social graph, research and implementation of the graph neural network, and also a comparison of results. The structure of the work has the following form. The first chapter provides a brief description of the data and describes the process of collecting these data. The process of forming the training samples is also reflected. The second chapter describes supervised machine learning methods, namely: linear and logistic regressions, the support vector machine, random forest, k-nearest neighbors, and gradient boosting. In addition, the results of these methods are obtained using only information from the user profile. The third chapter describes the methods that are able to reveal information from the social graph of the user, as well as obtained the results of the methods described in the second chapter using this information. The fourth chapter presents the basic concept of the graph neural network and implements the GraphSAGE algorithm. The results of this algorithm were obtained using both the CPU and the GPU. According to the results of the analysis, the use of graph embeddings gave an increase in quality both in the task of determining age and in the task of determining gender. The use of graph neural network improved quality only in the task of determining the gender of the user. The obtained results may have practical implications for personalizing content in a social network.en_GB
dc.language.isoru
dc.subjectмашинное обучениеru_RU
dc.subjectклассификацияru_RU
dc.subjectрегрессияru_RU
dc.subjectлинейная регрессияru_RU
dc.subjectлогистическая регрессияru_RU
dc.subjectслучайный лесru_RU
dc.subjectметод опорных векторовru_RU
dc.subjectk-ближайших соседейru_RU
dc.subjectградиентный бустингru_RU
dc.subjectграфовые эмбеддингиru_RU
dc.subjectграфовая нейронная сетьru_RU
dc.subjectmachine learningen_GB
dc.subjectclassificationen_GB
dc.subjectregressionen_GB
dc.subjectlinear regressionen_GB
dc.subjectlogistic regressionen_GB
dc.subjectrandom foresten_GB
dc.subjectsupport vector machineen_GB
dc.subjectk-nearest neighborsen_GB
dc.subjectgradient boostingen_GB
dc.subjectgraph embeddingsen_GB
dc.subjectgraph neural networken_GB
dc.titleDetermining hidden demographic characteristics of a social network useren_GB
dc.title.alternativeОпределение скрытых демографических характеристик пользователя социальной сетиru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
diploma.pdfArticle575,56 kBAdobe PDFПросмотреть/Открыть
reviewSV_rev_tolm.pdfReviewSV261,29 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.