Отзыв научного руководителя на выпускную квалификационную работу Теровой Валерии Евгеньевны на тему: «Распознавание сущностей на графе знаний об организациях» Уровень образования: бакалавриат Направление: 02.03.01 «Математика и компьютерные науки» Основная образовательная программа: СВ.5152.2019 «Математика, алгоритмы и анализ данных» Одной из наиболее важных задач обеспечения качества структурированных данных и повышения надежности их последующего анализа является разрешение сущностей (ER), целью которого является объединение информации из различных источников, относящейся к одному и тому же объекту реального мира. Несмотря на многие десятилетия непрерывных исследований, разрешение сущностей остается актуальной научной проблемой, требующей привлечения сложных математических методов и продвинутых алгоритмов обработки данных. Для компании Яндекс данная задача представляет высокую практическую ценность в рамках реализации стратегического фреймворка Customer 360, подразумевающего наличие единой точки зрения на все данные о взаимодействиях вида «бизнес для бизнеса» (B2B). Цель дипломной работы Валерии состояла в исследовании различных подходов к разрешению сущностей на графе взаимосвязей между бизнесами, проектировании эффективных алгоритмов разрешения сущностей и последующей разработке комплексного программного решения, реализующего указанные алгоритмы. Для достижения указанной цели Валерией был предложен подход, при котором компоненты связности графа обрабатываются независимо на разных узлах кластера, а компоненты большой размерности дополнительно разбиваются на части и обрабатываются при помощи распределённых алгоритмов по вычислительной модели MapReduce. В рамках работы над дипломом Валерией была решена задача установления взаимосвязей на графе между потенциально новыми и уже существующими бизнесами Яндекса. Для этого была поставлена задача бинарной классификации, разработаны процессы формирования признаков и обучающего датасета, а затем проведен сравнительный анализ различных моделей бинарной классификации с последующей оценкой качества моделей. Это позволило Валерии наметить подходы к выделению нетривиальных подкластеров внутри компонент связности графа на основе методов вложения графов в многомерное векторное пространство (эмбеддингов). В рамках указанного подхода Валерией была проведена кластеризация бизнес-сообществ алгоритмом DBSCAN и выявлены сложные сообщества организаций в графе знаний. Все полученные Валерией результаты были применены к анализу реальных данных о бизнесах и показали высокую эффективность. Основные результаты Валерии, полученные в ходе работы над дипломом, внедрены в опытно-промышленную эксплуатацию. Подходы, применённые Валерией в ходе работы над дипломом, могут быть обобщены и использованы для решения различных задач в области обработки графов знаний и анализа бизнес-процессов. В процессе работы над дипломом Валерия проявила трудолюбие, широкую математическую экспертизу, глубокое понимание графовых алгоритмов, профессиональный подход к разработке программных средств обработки данных, а также нацеленность на достижение практически значимых для бизнеса результатов. Считаю, что выпускная квалификационная работа Валерии выполнена на высоком уровне и заслуживает оценки «отлично», а сама Валерия — присвоения степени бакалавра по направлению 02.03.01 «Математика и компьютерные науки». Кандидат физико-математических наук, Доцент факультета математики и компьютерных наук СПбГУ Авдюшенко Александр Юрьевич 7 июня 2023 года