САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ образовательная программа магистратуры "Прикладная, экспериментальная и математическая лингвистика" РЕЦЕНЗИЯ на выпускную квалификационную работу студента Харабета Якуба Константиновича, выполненную на тему: "Автоматическое извлечение количественной информации из корпуса русскоязычных текстов" Актуальность ВКР, новизна Диссертация Я.К. Харабета посвящена автоматическому извлечению и анализу количественных конструкций в русском языке. Актуальность данной темы несомненна: извлечение структурированных данных – одна из фундаментальных задач в области автоматической обработки текстов на естественном языке, необходимая для решения более высокоуровневых задач, таких как информационный поиск, построение онтологий, автоматическое реферирование и др. Ценность количественных конструкций заключается в том, что они, как правило, содержат установленные факты о предметах реального мира, поэтому выделение их в тексте особенно актуально для автоматического анализа текстов научного, научно-популярного и технического жанров. Оценка содержания работы Диссертация состоит из введения, четырех глав, заключения, списка литературы и шести приложений. В первой главе приводятся теоретические основания проводимого исследования: автор излагает основные идеи исследуемого явления – грамматики конструкций, а также описывает технологии и научные понятия, лежащие в основе инструмента автоматического извлечения фактов из текста: компьютерная морфология, контекстно-свободные грамматики, синтаксический анализ. Во второй главе описывается материал и основной инструмент исследования. Материалом послужили два корпуса русскоязычных текстов: первый, на 100 тысяч словоупотреблений, собран автором самостоятельно и включает в себя статьи, опубликованные в различных журналах (в основном научно-технического жанра), второй – web-корпус RuTenTen, представленный на ресурсе SketchEngine. Объектом исследования были выбраны конструкции с точным указанием физических величин, а именно длины. В качестве инструмента для автоматического извлечения конструкций из текста был взят Томита-парсер. Кроме того, во второй главе автор приводит определение и классификацию количественных конструкций, на которые опирается в дальнейшем при анализе материала исследования. В третьей главе автор проводит предварительный анализ свойств количественных конструкций и строит собственную классификацию с подробным описанием и примерами из корпуса для каждого типа. Опираясь на эту классификацию, автор разрабатывает систему правил на языке контекстно-свободных грамматик, отражающих синтаксическую структуру выделенных типов. Помимо этого, проведён разбор сложных случаев, выявленных на первом этапе эксперимента, с учётом которых были написаны новые правила, отличающиеся более высокой точностью и полнотой разбора. В четвёртой части описан эксперимент и приведены результаты автоматического извлечения количественных конструкций. Эксперимент проводился в два этапа на разных корпусах. Результатом первого этапа можно считать разработанную классификацию количественных конструкций, набор правил для выделения разных типов конструкций в тексте и множество отдельных случаев, требующих более сложных правил для корректной обработки. На втором этапе усовершенствованные правила были запущены на тестовом корпусе и получены финальные результаты. Положительные стороны ВКР Автор проанализировал большой объём материала и обнаружил некоторые интересные структурные особенности количественных конструкций в русском языке. Эти особенности легли в основу детальной классификации, предложенной автором, которая в дальнейшем может быть использована другими исследователями при разработке алгоритмов извлечения количественной информации из текстов на естественном языке. Кроме того, был разработан и реализован собственный работающий алгоритм извлечения количественных конструкций, показавший хорошие результаты. Можно сказать, что автор полностью справился с поставленной в работе задаче. Практическое значение работы На примере конструкций, включающих в себя меры длины, автор продемонстрировал жизнеспособность и высокую эффективность метода, основанного на правилах, для автоматического извлечения и интерпретации количественных конструкций из текста на естественном языке. Разработанный набор правил может быть в дальнейшем расширен и использован для извлечения других типов количественных конструкций. Недостатки и замечания по ВКР Из замечаний и дополнительных вопросов к представленной работе хотелось бы отметить следующее: 1. В качестве одной из задач исследования, заявленной во введении, указана "систематизация данных о русских количественных конструкциях из корпусных источников и их лингвистическая интерпретация". Хотелось бы уточнить, что автор понимает под лингвистической интерпретацией в данном контексте. 2. Теоретическая база представлена довольно сжато. Не хватает обзора предыдущих исследований на заданную тему (если автору о таких известно): какие результаты были достигнуты, какие серьёзные недостатки есть у других подходов к решению данной задачи, в чём преимущество подхода, предложенного в данной работе. 3. Во второй главе автор указывает, что классификация была разработана на материале контекстов, автоматически полученных из корпуса. Интересно узнать, какой объём данных пришлось проанализировать для составления классификации. 4. При написании правил контекстно-свободных грамматик автор выделяет класс слов, выполняющих роль модификатора перед числовой группой. Модификатор содержит в себе семантически значимую информацию, и было бы полезно учитывать его в конечной структуре данных. 5. Описание эксперимента изложено довольно лаконично, это несколько затрудняет понимание того, что было сделано в рамках исследования и не позволяет в полной мере оценить объём работы, проделанный автором. 6. В описании результатов приведены абсолютные значения (сколько конструкций было разобрано правильно, сколько нет). Интересно было бы увидеть значения точности/полноты, выраженные в процентах, чтобы можно было сравнить между собой результаты двух этапов эксперимента, а также оценить качество разработанного алгоритма относительно других алгоритмов автоматического извлечения информации из текста. 7. Хотелось бы увидеть более развёрнутый анализ результатов, полученных на втором этапе эксперимента – с чем связан неверный разбор некоторых конструкций после усовершенствования правил, какие дальнейшие шаги видятся автору для получения ещё более высокой точности разбора. Рекомендуемая оценка ВКР Работа заслуживает отличной оценки. Выпускная квалификационная работа Я. К. Харабета соответствует основным требованиям, предъявляемым к работам данного уровня, а автор заслуживает присвоения степени магистра филологии. Рецензент Остапук Наталья Александровна, магистр прикладной информатики, разработчик компании "Яндекс" «02» июня 2016 г. _________________ (подпись)