Отзыв на магистерскую диссертацию Шенбина Ильи Игоревича «Обучение распределенных представлений слов на основе символов» Диссертация посвящена решению новой, актуальной и интересной задачи, самостоятельно поставленной автором – предсказанию распределенного (векторного) представления слов, не представленных в обучающем множестве. Данная задача связана с широко используемым сегодня методом word2vec, позволяющем отобразить каждое слово из обучающего набора текстов в вектор вещественного пространства относительно небольшой размерности (несколько сотен). При этом семантически близкие слова часто отображаются в близкие векторы. Данное наблюдение и является причиной широкого применения word2vec в разнообразных приложениях, связанных с анализом текстов. Однако, векторное представление слов в процессе обучения формируется только для слов, входящих в обучающий набор данных. В настоящее время имеется ряд общедоступных наборов данных, в которых представлены распределенные представления слов, вычисленные на основе больших тренировочных наборов данных. В диссертации упоминаются два таких набора – набор, обученный на текстах из коллекции аннотаций медицинских статей MEDLINE, и набор, обученный на текстах, опубликованных в социальной сети ОДНОКЛАСНИКИ. Используя эти данные можно решать многие задачи анализа текстов, относящихся либо к медицинской тематике (англоязычные тексты), либо к современному русскоязычному дискурсу. Однако ограниченность словаря обоих наборов данных накладывает определенные ограничения. Они связаны прежде всего с появлением новых терминов и жаргонизмов, появление которых можно учесть в модели распределенных представлений слов только путем ее полного переобучения, что весьма затратно в связи с огромными размерами наборов данных (например, имеется более 18 млн аннотаций в MEDLINE). В своей диссертации Илья Шенбин подходит к данной проблеме с новой точки зрения. Если в word2vec источником данных о семантике слов служил контекст слова (набор слов, окружающих данное слово), то Илья пытается использовать информацию о символах (буквах) и их последовательностях, входящих в данное слово, с учетом, естественно, уже ранее построенных векторных представлений миллионов слов. Мы знаем, что некоторые последовательности букв действительно содержат важную семантическую информацию – корень слова, суффикс, окончание, приставка. Так как эти последовательности могут встречаться в большом числе слов из обучающего множества (слов с уже известными, вычисленными векторными представлениями), то мы можем надеяться извлечь из этих данных информацию, позволяющую восстановить векторное представление нового слова, анализируя последовательность входящих в него символов. Основной инструмент, использованный в диссертации, это современные модели нейронных сетей (рекуррентные и сверточные нейронные сети). Илья строит большое число моделей, в которых он комбинирует как известные модели сетей, так и добавляет новые механизмы – например, различные варианты так называемых карт внимания. На всех этапах проектирования архитектуры сети выбор оптимальных решений основан на проведении масштабных экспериментов. Для оценки качества моделей применяется легко интерпретируемая метрика качества – вероятность того, что восстановленное по символьному представлению слова (из обучающего множества) его векторное представление, включает в свою окрестность из 100 ближайших векторных представлений слов из обучающего множества истинное представление данного слова. В заключение хочу отметить, что Илья выполнял всю работу (начиная с постановки задачи) полностью самостоятельно, исследование проведено на высоком уровне и является очень интересным как с теоретической, так и с практической точки зрения. Полагаю, что магистерская диссертация Шенбина Ильи Игоревича удовлетворяет всем требованиям, предъявляемым к магистерским диссертациям, защищаемым в Санкт-Петербургском государственном университете, и заслуживает оценку «отлично». Также ее можно рекомендовать к публикации, а автору следует рекомендовать продолжить исследования по данной тематике в рамках написания кандидатской диссертации. Научный руководитель, к.ф.-м.н., доцент Добрынин В.Ю.