О Т З Ы В на магистерскую диссертацию ЩадричевойВалерии Федоровны «Использование деривационных преобразований терминоэлементов для автоматического поиска терминов (на материале медицинской терминологии)» Магистерская диссертация В.Ф. Щадричевой посвящена созданию программы по автоматическому извлечению терминологии из медицинских текстов на основе деривационных преобразований терминоэлементов. Актуальность работы автора обусловлена активным развитием области автоматического извлечения информации из различных текстов для таких целей как информационный поиск, автоматическое составление словарей, пополнения баз знаний, и т.д. Новизна работы заключается в использовании для достижения поставленной цели деривационного подхода к автоматическому извлечению терминов. Работа В.Ф. Щадричевой состоит извведения, трех глав: двух теоретических и одной практической с описанием этапов разработки и алгоритма работы программы извлечения терминов, заключения, двух приложений и списка литературы. В первой главе теоретической части рассматриваются деривационные процессы в русском языке на основе исследований Е.С. Кубряковой, различные классификации способов словообразования, описанные В.В. Виноградовым, Е.А. Земской, И.С. Улухановым. Автор приводит наиболее частотные модели словообразования на материале используемого в исследовании корпуса медицинских текстов. Во второй главе теоретической части В.Ф. Щадричева рассматривает различные определения понятия «термин». На их основе автор выделает следующие характеристики понятия, которые будут в дальнейшем использоваться в работе, а также приходит к выводу, что к терминам могут относиться не только существительные, но и другие части речи. Из этого автор делает вывод, что в специализированных текстах могут встречаться деривационные ряды терминов, что позволит извлекать ключевой терминологический компонент таких рядов, и на основе этого автоматически извлекать термины из текстов. Рассматривается понятие «терминоэлемента» и его соотношение с понятием «термин». Далее автор рассматривает способы образования терминов и делает необходимые уточнения для описания образования терминов исследуемой области. Также рассматриваются имеющиеся подходы к автоматическому выделению терминов из текстов и существующие на данный момент реализации таких систем. Работа демонстрирует хорошее владение автором теоретическим материалом, логичное последовательное его изложение и умение применить его к объекту исследования. Третья глава представляет собой наиболее интересную практическую часть работы. В ней диссертант описывает этапы подготовки, создания и настройки программы автоматического извлечения терминов из корпуса офтальмологических текстов. Автор использует морфологический анализатор компании «Яндекс» Mystem, обрабатывает им отобранные тексты и на основе слов, которые программа не смогла обработать, строит деривационные модели. Обработанными оказались более 600 слов. После этого автор описывает алгоритм работы программы: на вход она получает собственно обрабатываемый текст и списки опорных основ, суффиксов и префиксов. Списки указаны в Приложении 2. Программа удаляет из слов указанные в списках элементы, в результате получается список терминоэлементов. Автор подробно и с примерами описывает алгоритм работы программы, метрики измерения эффективности, а также процесс настройки для повышения эффективности. К последнему этапу разработки программы программа выделяет 53% терминов из текстов, точность составляет 0,89, полнота 0,54. Далее приводятся возможные способы повышения этих показателей. Некоторое сожаление вызывает отсутствие в работе или ее приложениях кода самой программы, технических деталей ее написания (например, указание языка), а также возможности проверить результат, достигнутый автором. Также хотелось бы более четкого указания на недостатки существующих способов извлечения терминологии из текстов, и, соответственно, плюсов избранного в работе подхода. Плюсом было бы обоснование возможности использования этого подхода, алгоритма и программы для других тематик текстов, не только медицинских. Не совсем ясна до прочтения практической главы формулировка цели «проверка слов корпуса на предмет отсутствия анализа». Также можно отметить некоторую неаккуратность в оформлении таблиц и ссылок на интернет-ресурсы. Несмотря на указанные недочеты и пожелания к автору, можно сказать, что исследование представляет собой законченную работу на актуальную современную тему. Диссертация заслуживает высокой оценки. 29.05.2016 директор по технологиям ООО «РСА», магистр лингвистики, А.Э. Каравашкина