Выпускная квалификационная работа Токаревой Анны Александровны «Процедура тематической атрибуции русских текстов с использованием деривационного анализа» является оригинальным исследованием, целью которого является разработка алгоритма тематической атрибуции текстов определенной предметной области с опорой на правила синтаксической (транспозиционной) деривации. По сути дела предложена процедура улучшения параметров стандартных ресурсов тематической атрибуции посредством объединения в классы эквивалентности нескольких лексем, связанных общностью смысла в рамках определенной предметной области. Анна Александровна формулирует нулевую гипотезу, что слова-дериваты из одного словообразовательного гнезда, повторяющиеся в тексте, отражают его тему. Эта формулировка без некоторого пояснения кажется не вполне очевидной. Во-первых, важным является то, что эти дериваты связаны отношением транспозиционной синонимии, т. е. передают некий семантический компонент в виде лексем разных частей речи. Во-вторых, внутритекстовая связанность обеспечивается разными ресурсами: анафорическими и синонимическими заменами, а также регулярным развертыванием тематической прогрессии, при которой рематические компоненты текста упоминаются впоследствии как тематические. Об этом довольно подробно говорится в теоретических разделах работы, которые занимают примерно 40 страниц. Наиболее интересны экспериментальные данные, представленные в работе. Во-первых, классы эквивалентности дериватов-транспозитов создаются для определенной предметной области: Анна Александровна сформировала специальный корпус текстов по музыкальной тематике, который имеет некоторое внутренние подкорпусы. Во-вторых, в качестве своеобразного «золотого стандарта» выступают нерегламентированные экспертные оценки в виде ключевых слов и выражений для 10 случайных текстов из корпуса, весьма различающиеся между собой. Для данных текстов получены 3 базовые тематические модели с использованием ресурсов Sketcth Engine (https://www.sketchengine.eu/), Rutermextract (https://pypi.org/project/rutermextract/) и авторской программы вычисления «тематичности» лексических элементов по типу TF-IDF при сопоставлении частот лексических единиц в созданном корпусе и общем частотном словаре О.Н.Ляшевской, С.А.Шарова (http://dict.ruslang.ru/freq.php). Таблицы сопоставления списков ключевых слов, выделенных экспертами и базовыми ресурсами, не показывают значимого согласия ни для экспертов, ни для моделей. Применение «транспозиционной» свертки лексических единиц, которую Анна Александровна называет стеммингом, позволило поднять усредненные значения точности тематической модели в среднем до доверительного значения в 65%. Определенный интерес переставляет предложенный в работе анализ текстов как монотематичных и политематичных. Анна Александровна пишет в заключении, что необходима проверка масштабирования предложенного метода, использования его для других предметных областей и объемов корпуса. Надеюсь, что автор сможет сделать это в дальнейших исследованиях. Выпускная квалификационная работа Токаревой Анны Александровны является законченным, самостоятельным исследованием, удовлетворяет всем требованиям, предъявляемым к работам такого уровня, и заслуживает высокой оценки.