РЕЦЕНЗИЯ на выпускную квалификационную работу Сипунина Константина Владимировича по теме «Автоматическая лемматизация текстов в корпусе СКАТ на основе морфологической разметки» Работа К.В. Сипунина посвящена проблеме разработки автоматизированных инструментов для лемматизации морфологически размеченных житий в составе Санкт-Петербургского корпуса агиографических текстов (СКАТ) и организации полноценного доступа к корпусу СКАТ на платформе системы TXM. Работа отражает актуальные проблемы теоретического и практического характера, а именно, оцифровка письменных памятников, стандартизация их представления и обеспечение онлайн доступа. Содержание ВКР полностью соответствует заявленной в названии теме. Как положительный нюанс хочется отметить наличие аннотации на русском и английском языках. Сделан тщательный обзор систем представления грамматической информации в существующих восточнославянских исторических корпусах, описаны основные трудности именного словоизменения в церковнославянском языке. Разработан алгоритм и написана программа лемматизации текста житий на основе морфологически размеченных данных. Этот аспект стоит отметить как одну из особенностей проекта: обычно лемматизация и разметка выполняются одновременно. Cтеммер, разработанный в рамках работы, выгодно отличается от классических бессловарных стеммеров, основанных на методе усечения окончаний, тем, что он использует морфологическую разметку обрабатываемых словоформ, что позволяет максимально точно отделять собственно основы. Правда, при этом, видимо, неверно говорить, что он опирается на семантику и план содержания (с. 44). Усовершенствована кодировка данных корпуса на основе стандарта Unicode 6.1. Усовершенствовано XML-представление текстов корпуса, что позволяет загружать их на платформу TXM с расширенными возможностями поиска и отображения. XML-разметка текстов СКАТ соответствует международному стандарту оформления электронных изданий Text Encoding Initiative. Экспертная оценка полученных результатов показала, что на материале 3 обработанных текстов значения точности и полноты разработанного алгоритма составляют 100 %, а именно, всем анализируемым именным словоформам присваиваются корректные леммы, необработанных случаев нет. Имеющиеся замечания не являются существенными. Так, например, рецензенту не очень нравится перечень задач, как он сформулирован на с. 9, в частности, программная реализация алгоритма лемматизации нам представляется отдельной задачей, точно также как и корректировка формата морфологической разметки. Тот факт, что для работы с Регенсбургским диахроническим корпусом русского языка в полном объёме необходимо заполнить лицензионное соглашение, не говорит о том, что он не доступен для открытого пользования, как это написано на с. 22. Работа производит сильное впечатление. Автор показал высокую научную квалификацию, что позволило получить результаты, имеющие как теоретическую значимость, так и практическое применение. Полагаю, что К.В. Сипунин полностью справился с поставленной задачей, что его выпускная квалификационная работа заслуживает отличной оценки, а сам он степени «бакалавр лингвистики». «11» июня 2018 г. __________________ Захаров В.П. Подпись ФИО   СОГЛАСИЕ на обработку персональных данных Я, Захаров Виктор Павлович, (фамилия, имя, отчество рецензента) даю согласие на обработку своих персональных данных оператору - Федеральное государственное бюджетное образовательное учреждение высшего образования «Санкт-Петербургский государственный университет» (далее - СПбГУ), 199034, Санкт-Петербург, Университетская наб., д. 7-9, на следующих условиях: 1. Оператор осуществляет обработку персональных данных исключительно в связи с осуществлением рецензирования и проведения защиты выпускных квалификационных работ обучающихся СПбГУ в целях реализации принципа открытости образовательной деятельности. 2. Перечень персональных данных, передаваемых Оператору на обработку: • фамилия, имя, отчество; • место работы, должность; • ученая степень и звание (при наличии); • контактный телефон и адрес электронной почты. 3. Оператор имеет право на обработку персональных данных, то есть совершение, в том числе, следующих действий: обработку (включая сбор, систематизацию, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, блокирование, уничтожение персональных данных. 4. Данным заявлением разрешаю считать общедоступными, в том числе выставлять в сети Интернет, следующие персональные данные: фамилия, имя, отчество, место работы, должность, ученая степень и звание (при наличии). 5. Обработка персональных данных осуществляется оператором в соответствии с нормами Федерального закона от 27.07.2006 № 152-ФЗ «О персональных данных» и смешанным способом. 6. Срок действия данного Согласия не ограничен. «11» июня 2018 г. __________________ Захаров В.П. Подпись ФИО