Рецензия на выпускную квалификационную работу бакалавра «Контекстная обработка данных социальных сетей» Башарина Егора Валерьевича В выпускной квалификационной работе Башарина Е.В. исследуется проблема контекстной обработки данных из социальных сетей с помощью тематических моделирования. Заявленной целью работы является изучение методов контекстной обработки социальных сетей. Работа состоит из четырех глав. В первой главе работы проведен сравнительный анализ социальных сетей, сеть VK.com выбрана как источник данных. Текстами служат сообщения популярных сообществ указанной сети. Описаны разработанные и привлеченные инструменты выгрузки данных, а также текстовой обработки. Во второй главе описаны основные подходы решения тематического моделировании, которые используются для контекстной обработки данных. Проведен сравнительный анализ двух тематических моделей pLSA и LDA, на основе чего была выбрана модель LDA. В третьей главе рассмотрена проблема оценивания качества тематических моделей и приведены основные методы оценки качества тематических моделей. В последней главе описаны эксперименты с тематической моделью LDA. В рамках данной работы был реализован программный модуль, выполняющий построение модели, используя сэмплирование Гиббса. Рассмотрены обучающие и тестовые выборки. Были рассмотрены три различных разбиения. Был проведен ряд экспериментов для выявления зависимостей между параметрами обучения модели и оценками качества. Для оценивания качества использовались перплексия и когерентность. Для лучшей модели была проведена экспертная оценка, в результате которой выяснилось, что модель LDA показала хорошие результаты и справилась с задачей выявления тематик. Среди плюсов можно отметить большое число экспериментов, и, в целом, хорошее оформление. Работа также не лишена и минусов: 1. В названии и цели работы фигурируют социальные сети, тогда как работа применима также и к социальным медиа (блогам, форумам) и онлайн-мессенджерам. 2. Неясен принцип, по которому выбирались конкретные параметры исследования: число категорий, число популярных групп по категориям, а также как именно выбирались группы по категориям. 3. Использование встроенного хэширования в Python 2.7 для определения совпадения сообщений социальных сетей кажется вычурным и, одновременно, ненадежным решением. 4. Сравнение морфологизаторов pymorth2 и pymystem3 осуществлялось на основе анализа описания заложенного в них принципа работы, что, вообще говоря, не позволяет судить о качестве их работы. 5. В описании программного модуля на стр. 12 применения морфологического анализатора (который, напомню, работает со словами) ДО разбиения строки по пробельному символу и нормализации получаемых термов выглядит загадочным. 6. Выводы второй главы совершенно не следуют из содержания самой главы, а являются отдельным, самостоятельным повествованием. 7. Неясно, почему автор в исследовании влиянии гиперпараметра на значение перплексии проводил на довольно небольшом отрезке ([0;0,12]) при том, что значение в обоих случаях возрастает. Также неясно, почему он не провел исследование влияния гиперпараметра 8. Тестирование одной модели на одном наборе данных не должно позволять автору сделать вывод о том, что «в результате экспериментов выяснилось, что модель LDA хорошо справляется с задачей выделения ключевых тематик и концепций в коллекций документов». 9. Стоит отметить также крайне небольшое число цитируемых работ — 9 штук (за вычетом ссылок на Википедию и программный код). 10. Последовательность изложения не является стандартной для подобного рода работ. Некоторые логические переходы в повествовании неверны (например, во введении: «Существенным барьером при использовании социальных сетей является необходимость выбора методологии для сбора, обработки и анализа информации», «Пользователи … публикуют данные о своей активности, чувствах, мыслях, выражая свое мнение и позицию. Это способствует появлению … групп пользователей (сообществ), …»). 11. Работа содержит достаточно большое число пунктуационных ошибок (например, на стр. 3: «Для выявления ключевых концепций и тематик присущих группе пользователей используются …»). Работа показывает хорошие познания автора в области тематического моделирования. Считаю, что работа заслуживает оценку «хорошо». К.ф.-м.н., Доцент каф. КТ Университет ИТМО Фильченков. А.А.