Рецензия на выпускную квалификационную работу бакалавра Серебряковой Маргариты Владимировны Дипломная работа Серебряковой Маргариты Владимировны посвящена автоматической классификации объявлений в научной области. Нужно отметить высокую актуальность такого рода исследований. Данная работа является дополнительным шагом на пути к разработке средств поддержки научной деятельности. В частности она направлена на решение задачи упрощения поиска и систематизации доступных в науке возможностей (например, таких как: конкурсы, гранты, премии, стипендии, стажировки, НИР). Цель работы провести первичные эксперименты и заложить основу для дальнейшего исследования в области классификации новостных конкурсных объявлений по различным классам и категориям. Решение задач в рамках указанной цели может в перспективе позволить автоматизировать процесс классификации объявлений о конкурсах на такие классы, которые будут интересны определенным, отдельным группам пользователей. В работе были поставлены следующие задачи: на основе анализа большого массива документов определить, категории, внутри которых информация может быть интересна различным пользователям. Определить классы внутри выделенных категорий, такие, что документы, попавшие в каждый конкретный класс будут интересны вполне конкретному кругу пользователей. Определить единую стратегию по которой эксперт при ручном распределении документов по классам определяет в какой из классов его нужно отнести. Нужно отметить, что определение такой стратегии в большинстве случаев не тривиально. Таким образом на первом этапе требовалось построить схему классификации и разобрать возникающие спорные моменты по этой схеме, на втором этапе требовалось собрать коллекцию, позволяющую провести первичное исследование возможности использования нескольких классификаторов для решения указанной задачи. Для этого требовалось сформировать тестовую и обучающую выборки, формирование которых выполнялось вручную. Последнее, в виду не тривиальности определения класса для значительной части документов, является весьма трудозатратной процедурой. На третьем этапе нужно было апробировать возможности нескольких классификаторов для решения задачи классификации по классам внутри выделенных в схеме категорий. Были рассмотрены несколько подходов к представлению документов с использованием информации о частях речи. Структурно выпускная квалификационная работа состоит из введения, четырёх глав, заключения и списка литературы. Во введении отмечены цель и задачи дипломной работы. В первой главе рассматриваются вопросы связанные с обработкой естественного языка. Во второй главе рассматривается задача классификации и описаны два алгоритма классификации (С 4.5 и наивный байесовский классификатор). Третья глава содержит информацию об организации тестовой и обучающей выборок. В четвёртой главе перечислены этапы обработки данных, представлены результаты экспериментов. Результаты проведённых опытов были проанализированы, на их основании сделаны предположения о характере работы классификаторов для каждой категории в отдельности. В заключении подведены итоги дипломной работы. Положительные стороны работы следующие. Актуальность решаемой задачи. По итогам работы предложена схема классификации и собрана базовая коллекция документов, соответствующих данной схеме. При разработке тестовой коллекции документы выбирались последовательно, один за другим из имеющегося множества и назначались в соответствующие классы, вне зависимости от того был ли этот класс изначально очевиден или нет. Спорные вопросы решались в процессе обсуждения, при необходимости схема классификации уточнялась и выборки переформировывались. Таким образом была сделана попытка максимально близко приблизить тестовую коллекцию к "реальны условиям". К недостатком работы следует отнести плохое и небрежное оформление работы, отсутствие в работе анализа влияния параметров выбранных алгоритмов на результат. Нужно отметить естественное ограничение размера обучающей и тестовой выборок (в том числе как следствия их ручного составления). Следует отметить своеобразный стиль повествования автора, что затрудняет чтение работы. Автору не хватает умения четко формулировать и систематизировать текст. Обнаруженные в результате проверки работы заимствования являются общеупотребительными в области выражениями и фразами, что не препятствует допуску Серебряковой Маргариты к защите. Считаю, что, с учетом всех перечисленных плюсов и минусов, в том числе с учетом небрежного оформления, выпускная квалификационная работа Серебряковой Маргариты заслуживает оценку "хорошо", а автор присуждения ему степени бакалавра прикладных математики и информатики. Настоящим рекомендую Маргариту Серебрякову для продолжения исследования в магистратуре.