Отзыв на магистерскую диссертацию Мартынова Родиона Сергеевича "Оптимизация поисковой выдачи с использованием алгоритмов онлайн-обучения" На мой взгляд, одной из мотиваций выбора Родионом данной темы исследований (который был сделан полностью самостоятельно) был опыт, полученный им в процессе участия в разработке системы поиска рефератов медицинских статей, учитывающей при ранжировании результатов поиска степень доказательности полученных результатов. Такая система должна быть полезна при использовании в области так называемой доказательной медицины. В этой системе ранжирование результатов поиска осуществлялось с учетом как релевантности запросу, так и с учетом степени доказательности, которая оценивалась предварительно обученными классификаторами. Одна из проблем, связанная с ранжированием результатов поиска в данной системе, была связана с отсутствием обратной связи от пользователя. Система разрабатывалась в интересах конкретной группы медиков, чьи интересы могли не полностью учитываться стандартными алгоритмами ранжирования. В связи с этим и возникла идея использования так называемого онлайн-обучения ранжированию, когда алгоритм ранжирования обучается во времени в процессе взаимодействия с реальными пользователями. Отклик пользователя на результаты поиска, выдаваемые системой, состоит из набора кликов по документам. В процессе реальной работы с пользователями, последние формируют последовательность запросов, по каждому из которых система выдает ранжированный список результатов. Каждый пользователь отмечает некоторые из полученных результатов кликами. Эта обратная связь от пользователя должна использоваться для постоянного улучшения качества ранжирования. При этом важно следующее требование - каждый пользователь имеет право на получение максимально качественных на данном этапе обучения системы результатов. Это отличает процесс онлайн-обучения от оффлайн-обучения, когда целью является достижение хороших результатов в конце процесса обучения, и не учитывается то, насколько был удовлетворен пользователь результатами поиска в процессе обучения. Оценивая полученные Родионом результаты можно сделать несколько комментариев. Важной составной частью диссертации является обзор литературы. В данном случае мы имеем настоящий критический обзор, который мог бы быть опубликован сам по себе. В этом обзоре указываются авторы, которые внесли решающий вклад в область оффлайн- и онлайн-обучения ранжированию за последние несколько лет, и критически описываются их результаты. Именно на основе проведенного анализа Родион и принимает окончательное решение о направлении и цели собственных исследований. Хочу подчеркнуть - задача, лежащая в основе данного исследования определялась не на основе мнений "авторитетов", а на основе лично проведенного глубокого и критического анализа литературы, анализа, знакомство с которым может быть полезно многим другим исследователям. В главе 1 Родион описывает существующие подходы к решаемой им задаче. Здесь и алгоритм многорукого бандита, и методы сравнения ранжирований, которые можно использовать на одном из шагов метода многорукого бандита (сравнение текущего решения и решения-кандидата, обновление текущего решения). Проводится анализ указанных подходов и выявляется их "болевая точка": в используемой моделе предполагается существование функции качества (неизвестной), обладающей некоторыми свойствами, например, непрерывности, которыми на самом деле она обладать не может в силу дискретной природы решаемой задачи. В связи с этим использование стандартного в данной области стохастического градиентного спуска не представляется оправданным. В связи с этим Родион предлагает отказаться от градиентного спуска в пользу использования эволюционных алгоритмов. В главе 2 и описывается эволюционный алгоритм оптимизации. В отличии от градиентных методов, которые выполняют поиск в некоторой окрестности текущего решения, эволюционные алгоритмы, используя понятие популяции, выполняют поиск в некоторой степени глобально. Кроме того, эволюционные алгоритмы не имеют амбициозной цели поиска оптимального решения. С точки эволюции прав тот, кто выжил. Применительно к решаемой задаче это означает получение достаточно хорошего решения уже сейчас, а не в далеком будущем. Это очень важно для онлайн-обучения, так как оно проходит бесконечно долго (благодаря постоянному изменению интересов пользователей), а пользователи не будут готовы получать плохие результаты поиска сегодня в обмен на обещание выдачи очень хороших результатов в далеком будущем. После описания понятий, структур данных и функций, обычно применяемых в генетических алгоритмах, Родион описывает собственный алгоритм - Эволюционная оптимизация ранжирования (GARank) - эволюционный алгоритм, который может быть применен в задаче онлайн-обучения ранжированию вместо популярного на сегодня метода многорукого бандита. В главе 3 описаны эксперименты, которые, в частности, демонстрируют, что предложенный алгоритм GARank превосходит лучший на сегодня алгоритм Probabilistic Multileave Gradient Descent (PMGD) при решении задачи онлайн-обучения ранжированию на ряде известных тестовых наборах данных для двух моделей пользователей (идеальной и навигационной - наиболее реальные модели поведения пользователя, который либо заинтересован найти все релевантные документы, либо желает составить общее впечатление по интересующему его вопросу). Надеюсь, приведенные выше комментарии достаточно полно раскрывают ценность выполненной Мартыновым Р.С. работы. Все сделано на самом высоком уровне и полностью самостоятельно. Предложенный новый алгоритм может быть использован в поисковых системах различного назначения. Работа безусловно заслуживает оценку "отлично", может быть рекомендована к опубликованию. Полагаю, что Мартынов Р.С. должен быть рекомендован к поступлению в аспирантуру, как студент с явно выраженными исследовательскими склонностями и способностями. Научный руководитель, к.ф.-м.н., доцент Добрынин В.Ю.