САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" РЕЦЕНЗИЯ на выпускную квалификационную работу студента Григория Теймуразовича Букии, выполненную на тему: «Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования» Актуальность ВКР, новизна. В исследовательском проекте Г.Т.Букии предлагается решение одной из самых востребованных задач компьютерной лингвистики, каковой является кластеризация текстов с использованием нестандартного набора методов и алгоритмов. Автор разработал принципиально новый подход к кластеризации текстов, который опирается на автоматическое выделение ключевых слов и бинарных ключевых конструкций, характеризующих кластеры и использующихся для назначения меток кластеров. Оценка содержания работы. Отправной точкой исследования явилось предположение о том, что статистические данные о сочетаемостных предпочтениях лексем могут использоваться для объединения содержательно близких текстов в кластеры. Автор разработал и практически реализовал метод оценки силы связей в группах типа Прил.+Сущ. на основе таблиц сопряженности, который позволяет выделять в тексте наиболее характерные для него ключевые слова и бинарные ключевые конструкции. Эти слова и конструкции используются для идентификации кластера текстов, близких по тематике. С помощью особых методов ранжирования среди них выделяются тематические метки, наилучшим образом характеризующие содержание текстов в кластере. Тем самым, предложенный Г.Т.Букией подход позволяет быстро, просто и точно построить тематическую модель корпуса текстов, не привлекая внешние источники данных ни на этапе выделения ключевых слов, ни при выделении конструкций, ни при назначении меток кластеров. Считаю, это высокое достижение, ставящее работу Г.Т.Букии в один ряд с передовыми мировыми разработками в этой области. Положительные стороны ВКР. 1) В ходе реализации своего научного проекта Г.Т.Букия проявил исключительно глубокую теоретическую подготовку как в области лингвистической теории, так и в сфере статистических методов обработки наблюдений, умение принимать нестандартные решения, грамотно планировать и осуществлять эксперименты. 2) Особенностью исследования является изящная комбинация идей лингвистики конструкций, дистрибутивной семантики и статистического аппарата, прежде всего алгоритмов кластеризации и статистики сочетаемости слов в корпусе текстов. 3) Экспериментальная часть проекта включает в себя работу со специализированным программным обеспечением (библиотеки для машинного обучения scikit-learn, модули морфологического анализа) и с авторскими программными продуктами, специально созданными для проведения экспериментов. 4) Собран и предобработан представительный корпус новостных текстов, проведены эксперименты по бинарной кластеризации, по автоматическому выделению ключевых слов, характерных для одного кластера и не характерных для другого, по сборке бинарных ключевых конструкций, проведена оценка результатов, что убедительно доказывает состоятельность выбранного подхода. 5) Текст ВКР написан прекрасным научным языком, автор сумел и заинтересовать читателей, и убедить в важность и высоком качестве полученных данных. Теоретические разделы содержат практически исчерпывающий и объективный обзор существующей литературы по вопросу. Практические разделы содержат и ясное описание алгоритмов, и хода работы, и процедуры обработки результатов и их оценки. 6) Магистерская диссертация Г.Т.Букии представляет собой законченное исследование высокой научной значимости с практическим внедрением результатов. Практическое значение работы. Содержание проекта и основные результаты представляют высокий интерес для специалистов, работающих в области компьютерной лингвистики и интеллектуальных технологий, особенно для тех ученых, которые разрабатывают современные системы информационного поиска. Проект Г.Т.Букии отличается многозадачностью, и данные, поставляемые на каждом из этапов, имеют высокую ценность. Недостатки и замечания по ВКР отсутствуют. По ходу знакомства с ВКР у заинтересованного читателя возникли вопросы дискуссионного характера. 1) В качестве алгоритма кластеризации текстов в корпусе использовался алгоритм k-средних. Чем обусловлен данный выбор и можно ли получить столь же высокие результаты, используя алгоритмы, специально предназначенные для бинарной классификации, в частности SVM? Эксперименты проводились с бинарной кластеризацией. Возможна ли адаптация методики для случаев с многоклассовой кластеризацией? 2) Целесообразно ли сравнение результатов автоматического выделения ключевых слов и словосочетаний по авторской методике с данными, которые могут быть получены другими методами (например, метрика TF*IDF, критерий Хи-квадрат, C-value, RAKE и т.д.)? Как автор оценивает возможность сравнения результатов автоматического назначения меток кластеров с данными по тематическому моделированию с помощью других алгоритмов (RI, LDA и т.д.)? Выпускная квалификационная работа Г. Т. Букии соответствует основным требованиям, предъявляемым к работам данного уровня, а автор заслуживает присвоения степени магистра филологии. Рекомендуемая оценка ВКР: «отлично». Научный руководитель: Митрофанова Ольга Александровна, кандидат филологических наук, доцент кафедры математической лингвистики « 1 » июня 2016 г. _________________ (подпись)