САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" РЕЦЕНЗИЯ На выпускную квалификационную работу студента Коноваловой Александры Владимировны (фамилия, имя, отчество) выполненной на тему: Извлечение терминов автоматическими методами (на материале финских текстов) Актуальность ВКР, новизна В связи с гигантскими объемами текстовой информации и необходимостью ее обработки работа чрезвычайно актуальна и обладает определенной новизной, особенно в части оценки алгоритма и возможностей дальнейшего его применения. Оценка содержания работы Содержание работы, безусловно, соответствует уровню магистерской диссертации. Использованной литературы на трех языках достаточно для выполнения собственного исследования. В исследовании успешна решена техническая задача и сделана оценка полученных результатов. Структура работы ясная, точно соответствует поставленным задачам. Положительные стороны ВКР • Прежде всего подкупает прекрасное знание финского языка (я заметил лишь одну, небольшую, неточность (стр. 53): экономический термин tulot ‘доход’ — pluralia tantum, а изменяемая по числам лексема tulo имеет значение ‘приход, прибытие’). • Главы 1 и 2 содержат хорошие обзоры литературы и существующих систем для извлечения терминов. • В основных главах выполнен подробный и скрупулёзный анализ как ошибок алгоритма, так и ошибок разметки, предлагающий решения для дальнейшего развития. Практическое значение работы • На стр. 63 автор пишет «Мы надеемся, что наши замечания будут полезны при дальнейшей ручной проверке данной разметки». Я полностью согласен и считаю, что замечания, касающиеся ошибок в разметке, надо, безусловно, отправить разработчикам финских правил для TreeTagger. • Вторая практическая ценность заключается в анализе ошибок и предложениях по улучшению алгоритмов. Недостатки и замечания по ВКР • В работе есть некоторые пропуски как в списке литературы, так и в списке словарей, использованных для оценки результатов: o Некоторые странные ссылки (Яковлев, 1948, Хакулинен, 1955) и отсутствие одного из ключевых авторов по теме Игоря Кудашева (TermFactory и его многочисленные работы по финскому терминоведению) o Для оценки результатов можно было бы использовать финские «банки терминов» (termipankit): https://mot.kielikone.fi/mot/valter/netmot.exe?UI=fi80 и http://www.tsk.fi/tepa/netmot.exe?UI=figr&height=151, тогда как словарь Sanakirja.org не очень подходит для этой задачи, поскольку не является эталоном лексикографии. • В собранный корпус вошла газета Savon Sanomat (‘Газета Саво’), что не кажется хорошим решением (впрочем, из нее взяты всего 2 статьи). • В алгоритме, кажется(!), не учтены неспрягаемые прилагательные типа viime ‘прошлый’, ensi ‘следующий’, koko ‘весь, целый’ (например, в корпусе korp.scs.fi нашлось 581 сочетание “koko talout*”). И я не знаю, как они размечены в TreeTagger, – возможно, падежные теги им приписаны, и в таком случае проблем в алгоритме нет. Рекомендуемая оценка ВКР Отлично Рецензент Михаил Вячеславович Копотев, PhD, aдъюнкт-профессор Отделения современных языков Хельсинского университета