САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" РЕЦЕНЗИЯ На выпускную квалификационную работу студента Протопоповой Екатерины Владимировны, выполненную на тему: «ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСК И РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ» Актуальность работы обусловлена тем, что стремительное развитие машинного перевода и других методов автоматической обработки текста дали новый толчок созданию полностью автоматизированных переводных словарей. Вместе с тем, задача поиска иллюстративных примеров к словарной статье оказалась не очень простой, а литературы по этой теме практически нет. Данная работа старается восполнить этот пробел. Работа состоит из введения, четырех содержательных глав, заключения, библиографии, шести содержательных приложений. Глава первая довольно подробно знакомит читателя с историей компьютерной двуязычной лексикографии, а также принципами построения традиционных электронных словарей, словарей систем машинного перевода, автоматических электронных словарей и параллельных конкордансов. На основе обзора статей делается вывод, что задача автоматического поиска коротких примеров практически не освещена и что необходимо заполнить этот пробел, рассмотрев теоретические предпосылки и практические методы отбора примеров. Вторая глава посвящена описанию принципов построения иллюстративного блока словарной статьи в существующих словарях. Из анализа подходов делается вывод об отсутствии на сегодняшний день единой теории и методологии подбора примеров, поскольку составители в большинстве случаев не формулируют строгих критериев отбора иллюстративных примеров, а полагаются на интуицию лексикографа. В третьей главе рассматривается опыт лексикографирования устойчивых сочетаний различных типов, которые являются важным материалом для наполнения иллюстративного блока словарной статьи. Четвертая часть описывает практическую часть работы Протопоповой Е. В. Из фразовой таблицы, построенной на основе параллельного корпуса текстов разнообразной тематики, для каждой пары переводных эквивалентов подбирались возможные контексты. Далее контексты представлялись в виде признаков и подавались на вход ранжирующему классификатору, а затем выбирался контекст с наивысшим рангом. Для обучения классификатора и оценки качества был размечен корпус из 600 переводных эквивалентов. Эксперименты по оценке качества классификатора позволили добиться точности 71% при ранжировании переводных пар. В работе представлен довольно подробный анализ современного состояния компьютерной двуязычной лексикографии и принципов составления иллюстративного блока к словарной статье. Список литературы содержит 137 пунктов. В практической части описана методика оценки переводных эквивалентов, используемые факторы и использованные методы классификации для построения классификатора. Изложенный в работе подход уже используется в коммерческой системе «Яндекс.Перевод» и позволил значительно обогатить словарную статью. Вместе с тем, можно выделить и дискуссионные моменты: 1) В практической части принято несколько решений, которые стоило бы пояснить: например, указано, что для каждой пары переводных эквивалентов извлекаются все возможные контексты - биграммы. Или другой пример - выборка 700 элементов - почему именно такой объем? 2) В третьей главе делается довольно подробный разбор типов устойчивых выражений, однако в практической части эта информация почти никак не используется. 3) Не очень ясна роль синтаксического анализатора, используемого в статье. По всей вероятности, результат синтаксического анализа используется для дополнительной фильтрации переводных эквивалентов. 4) Стоило бы упомянуть, насколько данный подход применим к другим подбору примеров для переводов на другие языки. В целом, Протопопова Е. В. продемонстрировала умение работать с литературой, с лингвистическим материалом и современными методами и инструментами автоматической обработки текста. Магистерская диссертация соответствует основным требованиям, предъявляемым к квалификационным работами такого уровня, автор заслуживает присвоения квалификации магистра по специальности «Прикладная и математическая лингвистика». Рекомендуемая оценка ВКР: «отлично» . Рецензент: Тарелкин А. В., руководитель группы инструментов оценки качества машинного перевода, ООО «Яндекс» «02» июня 2016 г. _________________ (подпись)