САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" РЕЦЕНЗИЯ на выпускную квалификационную работу студента Екатерины Владимировны Протопоповой, выполненную на тему: «ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСК И РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ» Актуальность ВКР, новизна. Исследование Е.В.Протопоповой является интегральным и находится на пересечении сразу нескольких областей лингвистических работ: традиционная и компьютерная одноязычная и многоязычная лексикография, машинный перевод, лингвистика конструкций и дистрибутивная семантика, статистические методы обработки наблюдений и машинное обучение. Основная цель исследования, а именно разработка параллельного конкорданса для машинного переводного словаря, выводит диссертацию Е.В.Протопоповой на передовую современных научных работ в мировой компьютерной лингвистике. Проблема автоматического извлечения иллюстраций для переводного словаря до сих пор не нашла общепринятого решения. Поэтому проект Е.В.Протопоповой восполняет пробел, существующий в данной области. Оценка содержания работы. В диссертации Е.В.Протопоповой присутствуют и фундаментальная, и прикладная составляющие. Автор провел колоссальную работу с лексикографическими источниками, чтобы подтвердить свое предположение о том, что на сегодняшний день лексикография не предлагает последовательного и убедительного ответа на вопрос о том, что такое по сути иллюстративные примеры, какими признаками они должны обладать и по каким принципам выбираться из корпусов текстов. Обобщив данные об иллюстративных блоках более чем в двух десятках словарей, автор предлагает свои критерии отбора примеров, делая акцент на том, что по своей природе это конструкции, сочетания различной степени устойчивости. Поэтому на следующем своем шаге Е.В.Протопопова исследует словари сочетаемости и пытается вывести закономерности лексикографирования конструкций. Тем самым, автор подготовил надежный теоретический фундамент для практической реализации собственной разработки. Особенностью экспериментальной части исследования является ее ориентация на ряд передовых лингвистических сервисов, а именно, на инструмент «Яндекс.Перевод». В качестве источника данных использовался выровненный параллельный корпус компании «Яндекс» с морфосинтаксической аннотацией. При работе с корпусом использовался ряд инструментов (GIZA++, SyntAutom и ряд других). В ходе экспериментов использовалось авторское программное обеспечение, основанное на библиотеках scikit-learn для языка Python. На основе корпуса строится ранжирующий классификатор, позволяющий отбирать наиболее подходящие друг другу переводные пары конструкций. Для обучения классификатора была подготовлена эталонная выборка контекстов для переводных эквивалентов. Работа классификатора опирается на ряд факторов: оценка по языковой модели, относительная частота контекста, взаимная информация, векторные модели, семантическая близость. Классификация производилась с помощью двух алгоритмов – случайного леса и нейронной сети прямого распространения с одним скрытым слоем. Автором произведена оценка значимости признаков классификации, которая показала важность взаимной информации и компонентов языковой модели (триграммная модель и частеречная разметка). Эти признаки как раз отражают формальные и содержательные характеристики иллюстративных примеров в исследованных словарях. Результаты работы классификатора прошли лингвистический анализ, диссертантом предложено структурное описание ошибочных решений (ошибки в форме примера: грамматически неправильные фразы, слова в несловарной форме и т.д., ошибки в значении примера: несвязанные слова, пословный перевод и т.д.). Результаты ранжирования переводных конструкций прошли оценку по параметрам точности и аккуратности (соответственно, 0,83 и 0,74). Думается, что при продолжении работы эти показатели могут возрасти. Положительные стороны ВКР. 1) Магистерская диссертация Е.В.Протопоповой представляет собой законченное исследование высокой научной значимости с практическим внедрением результатов. Однозначно, это солидный задел для работы более высокого уровня. 2) Текст ВКР написан прекрасным научным языком, автор сумел и заинтересовать читателей, и убедить в важности и высоком качестве полученных данных. 3) Теоретические разделы содержат практически исчерпывающий и объективный обзор существующей литературы по вопросу и рекомендуются к публикации в виде учебного пособия по курсам «Переводная лексикография» и «Компьютерная лексикография». 4) Практические разделы содержат и ясное описание алгоритмов, и хода работы, и процедуры обработки результатов и их оценки. 5) Высокую ценность имеют представительные приложения, в которых отражены материалы, полученные автором диссертации и вошедшие в иллюстративный блок сервиса Яндекс.Перевод. Практическое значение работы. Содержание проекта и основные результаты представляют серьезный интерес для специалистов, работающих в области компьютерной лингвистики и интеллектуальных технологий, особенно для тех ученых, которые разрабатывают современные системы машинного перевода. Проект Е.В.Протопоповой отличается многозадачностью, и данные, поставляемые на каждом из этапов, имеют большую значимость. Недостатки и замечания по ВКР отсутствуют. По ходу знакомства с ВКР у заинтересованного читателя возникли вопросы дискуссионного характера. 1) При работе со словарями рассматривались прежде всего источники, ориентированные либо на русский, либо на английский, либо на оба языка. Попадали ли в поле зрения автора словари для других языков и языковых пар, где принципы подбора иллюстративных примеров были бы четко продекларированы и обоснованы? 2) Хотелось бы узнать мнение автора диссертации об универсальности предложенного метода. Насколько возможно его использование в работе с другими языковыми парами, его перенесение в многоязычные словари? Допустима ли его модификация для работы не с бинарными, а с тернарными конструкциями? 3) Решение автора относительно экспериментов с мультиклассификацией представляется особенно любопытным. Почему было выбрано именно решение объединения бинарных классификаторов методом случайного леса? Есть ли альтернативные алгоритмы, производящие не бинарную, а n-арную классификацию? Выпускная квалификационная работа Е.В.Протопоповой соответствует основным требованиям, предъявляемым к работам данного уровня, а автор заслуживает присвоения степени магистра филологии. Рекомендуемая оценка ВКР: «отлично». Научный руководитель: Митрофанова Ольга Александровна, кандидат филологических наук, доцент кафедры математической лингвистики « 2 » июня 2016 г. _________________ (подпись)