Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/26035
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Хмель Дмитрий Сергеевич | ru_RU |
dc.contributor.advisor | Hmel Dmitrij Sergeevic | en_GB |
dc.contributor.author | Толмачев Виктор Александрович | ru_RU |
dc.contributor.author | Tolmacev Viktor Aleksandrovic | en_GB |
dc.contributor.editor | Богданов Александр Владимирович | ru_RU |
dc.contributor.editor | Bogdanov Aleksandr Vladimirovic | en_GB |
dc.date.accessioned | 2021-03-24T15:08:57Z | - |
dc.date.available | 2021-03-24T15:08:57Z | - |
dc.date.issued | 2019 | |
dc.identifier.other | 050084 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/26035 | - |
dc.description.abstract | Развитие сервисов социальных сетей вызвал интерес к прогнозированию скрытой информации из большого количества свободно доступного публичного контента. Задача определения скрытых пользовательских характеристик из имеющихся данных социальных сетей стала известна как задача персональной аналитики или профилирования пользователя. Для прогнозирования атрибутов пользователя, как правило, используется информация, которую пользователь оставил о себе в своем профиле, либо текстовая информация, извлеченная из постов пользователя. Однако, главная проблема в том, что никак не учитывается взаимосвязь между пользователями. В данной работе исследуются и применяются методы машинного обучения с учителем к задачам определения возраста и пола пользователя, используя информацию из профиля пользователя, а также методы, которые извлекают информацию из социального графа пользователя и представляют эту информацию в виде векторов – графовых эмбеддингов (DeepWalk и Node2Vec). Помимо этого реализована графовая нейронная сеть, которая решает проблемы алгоритмов DeepWalk и Node2Vec и способна обобщаться на динамические графы. В ходе работы были решены следующие задачи: выбор источника данных, предварительная обработка данных, исследование и реализация методов машинного обучения только для информации извлеченной из профиля пользователя, исследование и реализация методов машинного обучения используя информацию из социального графа, исследование и реализация графовой нейронной сети, а также сравнение полученных результатов. Структура работы имеет следующий вид. В первой главе дана краткая характеристика данных и описан процесс сбора этих данных. Также отражен процесс формирования исходных тренировочных выборок. Во второй главе описываются методы машинного обучения с учителем, а именно: линейная и логистическая регрессии, метод опорных векторов, случайный лес, k-ближайших соседей и градиентный бустинг. Помимо этого получены результаты этих методов, используя только информацию из профиля пользователя. В третьей главе описываются методы, которые способны выявить информацию из социального графа пользователя, а также получены результаты методов описанных во второй главе с помощью данной информации. В четвертой главе представлена основная концепция графовой нейронной сети, а также реализован алгоритм GraphSAGE. Результаты данного алгоритма были получены с использованием как CPU, так и GPU. По результатам проведенного анализа, применение графовых эмбеддингов дало прирост качества как в задаче определения возраста, так и в задаче определения пола. Использование графовой нейронной сети улучшило качество только в задаче определения пола пользователя. | ru_RU |
dc.description.abstract | The development of social networking services has aroused interest in predicting hidden information from a large amount of freely available public content. The task of determining hidden user characteristics from the existing data of social networks has become known as the task of personal analytics or user profiling. To predict user attributes, the information that users leave about themselves in the profile is used, or the information extracted from the posts of users. However, the main problem is that the relationship between users is not taken into account. In this paper, we study and apply supervised machine learning methods to the tasks of determining the age and gender of the user, using information from the user profile, as well as methods that extract information from the social graph of the user and present this information in the form of vectors - embeddings (DeepWalk and Node2Vec). In addition, a graph neural network is implemented, which solves the problems of the DeepWalk and Node2Vec algorithms and is able to be generalized to dynamic graphs. During the work, the following tasks were solved: selection of the data source, data preprocessing, research and implementation of machine learning methods only for information extracted from the user profile, research and implementation of machine learning methods using information from the social graph, research and implementation of the graph neural network, and also a comparison of results. The structure of the work has the following form. The first chapter provides a brief description of the data and describes the process of collecting these data. The process of forming the training samples is also reflected. The second chapter describes supervised machine learning methods, namely: linear and logistic regressions, the support vector machine, random forest, k-nearest neighbors, and gradient boosting. In addition, the results of these methods are obtained using only information from the user profile. The third chapter describes the methods that are able to reveal information from the social graph of the user, as well as obtained the results of the methods described in the second chapter using this information. The fourth chapter presents the basic concept of the graph neural network and implements the GraphSAGE algorithm. The results of this algorithm were obtained using both the CPU and the GPU. According to the results of the analysis, the use of graph embeddings gave an increase in quality both in the task of determining age and in the task of determining gender. The use of graph neural network improved quality only in the task of determining the gender of the user. The obtained results may have practical implications for personalizing content in a social network. | en_GB |
dc.language.iso | ru | |
dc.subject | машинное обучение | ru_RU |
dc.subject | классификация | ru_RU |
dc.subject | регрессия | ru_RU |
dc.subject | линейная регрессия | ru_RU |
dc.subject | логистическая регрессия | ru_RU |
dc.subject | случайный лес | ru_RU |
dc.subject | метод опорных векторов | ru_RU |
dc.subject | k-ближайших соседей | ru_RU |
dc.subject | градиентный бустинг | ru_RU |
dc.subject | графовые эмбеддинги | ru_RU |
dc.subject | графовая нейронная сеть | ru_RU |
dc.subject | machine learning | en_GB |
dc.subject | classification | en_GB |
dc.subject | regression | en_GB |
dc.subject | linear regression | en_GB |
dc.subject | logistic regression | en_GB |
dc.subject | random forest | en_GB |
dc.subject | support vector machine | en_GB |
dc.subject | k-nearest neighbors | en_GB |
dc.subject | gradient boosting | en_GB |
dc.subject | graph embeddings | en_GB |
dc.subject | graph neural network | en_GB |
dc.title | Determining hidden demographic characteristics of a social network user | en_GB |
dc.title.alternative | Определение скрытых демографических характеристик пользователя социальной сети | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
diploma.pdf | Article | 575,56 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_rev_tolm.pdf | ReviewSV | 261,29 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.