Рецензия на дипломную работу Ланкина Александра Валерьевича «Исследование модулярности Web-графа сайта» Работа Ланкина А.В. относится к достаточно новому и интенсивно развивающемуся направлению компьютерных наук – вебометрическим исследованиям. Актуальность задач вебометрических исследований связана с развитием, укрупнением и усложнением сети Интернет. Помимо разрастания самой структуры сети Интернет, разрастается и усложняется структуры её составляющих – веб-сайтов. Именно структура веб-сайтов академического подмножества сайтов и была выбрана в качестве объекта исследований. Работа состоит из введения, трех глав, списка литературы и приложения. Во введении дается актуальность работы, формализуются основные объекты исследования в виде теоретико-графовых моделей. В первой главе исходя из решаемой задачи ставятся требования к программному продукту. Затем рассматривается вопрос нормализации ссылок. Подробно вплоть до структур данных разбирается архитектура созданного в рамках исследовательской работы приложения RCCrawlerи рассмотрен алгоритм его работы. Во второй главе даются базовые понятия теории графов применительно к вебометрическим исследованиям. Рассмотрен метод построения вектора модулярности веб-графа сайта и последующий алгоритм кластеризации на множестве полученных векторов модулярности. Третья глава посвящена экспериментальной части работы. Дан список веб-сайтов, на которых были проведены экспериментальные работы, описан ход проведения экспериментов. Для каждого веб-сайта рассмотрены результаты, полученные в ходе экспериментов и визуализирован веб-граф с помощью программного продукта Gephi. Над исходным множеством веб-сайтов СПбГУ проведено 2 разбиения на кластеры – первый подход к кластеризации основан на векторе модулярности, второй подход основан на нормализованном векторе модулярности. Также описаны результаты кластеризации на расширенном множестве – выбранным веб-сайтам факультетов СПбГУ были добавлены 8 веб-сайтов как схожей, так и далекой тематики. Была проведена проверка гипотезы о том, что тематически близкие сайты имеют близкие вектора модулярности. В приложении приведены настройки RCCrawler и избранные участки программного кода. В целом работа оставляет довольно положительное впечатление. Автором проведен полный цикл исследования –начиная с написания инструментов сбора исходных данных для эксперимента, заканчивая анализом полученных данных и умелого применения сторонних инструментов в тех случаях, когда разработка собственных программных комплексов была бы нецелесообразной. При разработке программного комплекса RCCrawler автор использовал принцип модульности, паттерны и многопоточное программирование, что говорит о серьезном подходе к программному комплексу. Однако хотелось бы увидеть обоснования для проведения данной исследовательской работы. Не совсем понятно какие результаты изначально хотел получить автор и совпали ли его ожидания с реальностью. Такжене аргументирован выбор технологий для написания RCCrawler и не ясныоснования для некоторых архитектурных решений, которые автор внедрил в свой продукт. Не хватает более развернутых анализов результатов экспериментов, особенно при анализе исходного множества веб-сайтов СПбГУ. Правда стоит отметить, что есть интересный анализ нормализации вектора модулярности и результатов кластеризации, которые на нем основаны. Учитывая вышесказанное, работа заслуживает оценки «отлично». Уровень работы достаточно высок, чтобы рекомендовать её автора Ланкина А.В. для продолжения исследований в аспирантуре. Рецензент, Старший программист ООО "Искусство Управления Данными" Чернобровкин Д.И.