Рецензия на выпускную квалификационную работу бакалавра Санкт-Петербургского государственного университета по направлению 010400 «Прикладная математика и информатика» Яненко Александра Сергеевича на тему Тестирование эффективности алгоритмов нелинейной классификации в задаче распознавания типа медицинского вмешательства для рефератов статей из коллекции MEDLINE Выпускная квалификационная работа Яненко А.С. посвящена классификации рефератов медицинских статей из коллекции MEDLINE по типам медицинского вмешательства. С учетом постоянно растущего количества статей, представленных в крупнейшей библиографической базе исследований по медицинским наукам, данная проблематика представляется крайне актуальной. В ходе работы автором рассмотрены некоторые оценки качества классификаторов (точность, полнота и F-мера); разобраны основные понятия для представления текста в пространстве признаков; приведено описание алгоритмов классификации, используемых в вычислительных экспериментах (логистическая регрессия, машины опорных векторов и ансамбли деревьев решений). Проведен ряд экспериментов с использованием описанных алгоритмов на коллекции из 8057 документов. Выпускная квалификационная работа написана самостоятельно, представленный материал свидетельствует о надлежащем уровне теоретической и практической подготовки Яненко А.С. В качестве уточнений и замечаний хотелось бы отметить следующее: Почему были выбраны именно эти алгоритмы? Какие библиотеки использовались при проведении численных экспериментов? Какие метрики помимо F-меры использовались для сравнения работы классификаторов? Какие гиперпараметры были выбраны для классификаторов? Использовался ли какой-либо препроцессинг (удаление стоп слов, стемминг и т.д.)? В разделе «Балансировка данных» на стр. 26 написано «Я решил из каждого класса с возвратом выбрать 2000 значений и использовать их в качестве обучающего множества.» Возникает вопрос, почему было принято именно такое решение? Такой подход может привести к переобучению, поскольку количество дубликатов в обучающем множестве повышается. В разделе «Эксперименты с представлением pLSA» на стр. 20 в алгоритме указано «На всей коллекции обучить модель pLSA с 50 компонентами». О каком обучении в данном случае идет речь? Нумерация таблиц отсутствует. Также, отсутствие указания используемых метрик качества затрудняет интерпретацию информации, представленной в таблицах. В тексте работы присутствуют опечатки, орфографические и пунктуационные ошибки. В целом, отмеченные замечания носят уточняющий характер и не снижают общего положительного впечатления от работы, которая выполнена в соответствии с квалификационными требованиями. Считаю, что выпускная квалификационная работа Яненко A. С. на тему «Тестирование эффективности алгоритмов нелинейной классификации в задаче распознавания типа медицинского вмешательства для рефератов статей из коллекции MEDLINE» заслуживает оценки «отлично». Рецензент, кандидат физ.-мат. наук, доцент Ю.Е. Балыкина