САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" ОТЗЫВ о выпускной квалификационной работе студента Якуба Константиновича Харабета, выполненной на тему: «Автоматическое извлечение количественной информации из корпуса русскоязычных текстов» Актуальность ВКР, новизна. Исследование Я.К.Харабета посвящено решению одной из важных задач современной компьютерной лингвистики, а именно, автоматическому извлечению количественных конструкций из русскоязычных корпусов текстов. Научный проект Я.К.Харабета связан с извлечением фактов, той областью, которая сегодня особенно привлекательна для разработчиков лингвистических процессоров и информационно-поисковых систем. Автор исследования сконцентрировался на высокоинформативном виде фактов, который однако до сих пор изучен мало: это количественная информация и, соответственно, конструкции со значением измеряемых параметров объектов. Новизна проекта заключается в том, что Я.К.Харабет успешно восполнил наметившийся пробел и детально изучил количественные конструкции русского языка, их стандартные формы и сложные случаи, а также создал набор правил для их автоматического выделения и воплотил их в виде формальной грамматики для Томита-парсера. Оценка содержания работы. Основная цель исследования – выделение количественных конструкций – рассмтаривается Я.К.Харабетом как многоаспектная, имеющая как содержательные, так и технологические стороны. Автор акцентирует наше внимание на том, что идея количества может выражаться в языке на разных уровнях, в том числе и на уровне лексических конструкций в смысле Ч.Филлмора. Количественные конструкции хорошо формализуемы, и тут можно опереться на опыт логического описания кванторных выражений в модели Р.Монтегю. Тем самым, идейная основа исследования – это объединение грамматики конструкций и формальной семантики. Подход к выделению количественных конструкций опирается на правила формальных грамматик. И здесь автор выбирает стратегию действий, связанную с поиском и формулировкой лексико-грамматических шаблонов для конструкций, связывая понятие количества и его морфосинтаксическое выражение. В качестве инструмента создания категориальной грамматики для количественных конструкций и автоматического выделения их из корпусов текстов автор выбирает Томита-парсер, предложенный компанией Яндекс для автоматического извлечения фактов. Особенность экспериментальной составляющей исследования состоит в том, что автор исследует как стандартные, так и нестандартные случаи реализации количественных конструкций, обращаясь к двум самостоятельным корпусам и проводя четырехступенчатую процедуру: а) выделение основных конструкций, б) тестирование на малом корпусе, в) корректировка правил с учетом особых случаев, г) тестирование правил на большом корпусе. Положительные стороны ВКР. 1) Автором собрана и обработана обширная научная литература по извлечению фактов, количественным конструкциям, морфосинтаксису, формальным грамматикам и т.д., что нашло отражение в содержательных теоретических главах диссертации. 2) Диссертант провел большую работу по сбору и анализу двух корпусов текстов, содержащих количественные конструкции: корпус А (научно-популярные статьи), корпус Б (выборки контекстов из корпуса RuTenTen). 3) Основываясь на корпусных данных, Я.К.Харабет предложил подробнейшее описание структуры и наполнения количественных конструкций, воплотив его в правилах категориальной грамматики для Томита-парсера. Эта категориальная грамматика прошла тестирование в ходе экспериментов с корпусами. 4) Результаты исследования нашли отражение в обширных информативных приложениях к диссертации – это прежде всего списки автоматически выделенных и размеченных количественных конструкций, которыми в дальнейшем могут воспользоваться те, кто работает с Томита-парсером при решении задачи извлечения фактов. Практическое значение работы. Содержание проекта и основные результаты представляют высокий интерес для специалистов, работающих в области компьютерной лингвистики и интеллектуальных технологий, особенно для тех ученых, которые разрабатывают современные системы автоматического извлечения фактов. Материалы диссертации могут быть использованы разработчиками при уточнении правил выделения количественных конструкций, а размеченные выборки могут служить в качестве обучающих в экспериментах с машинным обучением. Результаты диссертационного исследования Я.К.Харабета проливают свет на природу и поведение количественных конструкций в русском языке, что важно для специалистов по русскому морфосинтаксису. Недостатки и замечания по ВКР отсутствуют. По ходу знакомства с ВКР у заинтересованного читателя возникли вопросы дискуссионного характера. 1) Хотелось бы узнать мнение автора диссертации о том, насколько гибок предлагаемый им формализм: можно ли с минимумом затрат перевести правила, написанные для Томита-парсера, в другой формат, адаптировать для другого лингвистического процессора, применить к корпусу текстов, размеченному другим морфоанализатором и т.п. 2) Поскольку эксперименты проводились с двумя корпусами, диссертант может сделать заключение о степени надежности предложенных им правил: если на входе будет произвольный текст с количественными конструкциями, можно ли быть уверенным в том, что парсер выделит их столь же качественно, как и в двух экспериментальных корпусах? (Всё-таки нельзя сказать, чтобы оценка результатов экспериментов была строгой). Выпускная квалификационная работа Я. К. Харабета соответствует основным требованиям, предъявляемым к работам данного уровня, а автор заслуживает присвоения степени магистра филологии. Рекомендуемая оценка ВКР: «отлично». Научный руководитель: Митрофанова Ольга Александровна, кандидат филологических наук, доцент кафедры математической лингвистики « 2 » июня 2016 г. _________________ (подпись)