Рецензия на дипломную работу «Обработка новостных сообщений в научной области» Серебряковой Маргариты Владимировны В дипломной работе Серебряковой М.В. решается задача классификации новостных сообщений по нескольким категориям, каждая из которых содержит несколько классов. В качестве новостных сообщений используются объявления с УНИ СПбГУ, посвященные научным конкурсам. Заявленной целью работы является создание аппарата автоматической классификации подобных текстов. Работа состоит из четырех глав. В первой главе описаны методы и подходы для работы с текстом. Во второй главе описываются методы и алгоритмы машинного обучения (в частности, дерево принятия решений C4.5 и наивный байесовский классификатор), а также методы оценки качества таких алгоритмов. Третья глава посвящена описанию данных и их предобработки. Последняя глава работы посвящена описанию проведенных экспериментов по применению различных моделей обработки текстовых сообщений и применения различных классификаторов к построению итоговой модели классификации, а также анализу полученных результатов и сравнению построенных алгоритмов. Среди плюсов можно выделить прикладную значимость задачи, а также подробный анализ полученных результатов. Работа также не лишена и минусов: 1. Стиль повествования отстоит от научного более, чем стоило бы для выпускной квалификационной работы. Это выражается в некоторой путанности повествования и обилии излишних, не относящихся к основной линии повествования подробностей. 2. В работе не содержится обзора существующих решений этой или схожих задач. 3. В работе использовалось всего два алгоритма классификации из библиотеки WEKA, которая в едином интерфейсе реализует несколько десятков таких алгоритмов. 4. Автор не указывает подробностей того, как восстанавливалась априорное распределение вероятностей документов, используемое в наивном байесовском классификаторе, поэтому наиболее вероятной гипотезой является то, что автор восстанавливает это распределение из обучающей выборки, которая, как это описано в третьей главе, строилась в том числе с «брутфорсным» добавлением объектов редких классов, что, очевидно, исказило априорное распределение и значительно ухудшило обобщающую способность построенного классификатора. Об этом же свидетельствуют все матрицы неточностей, приведенные для наивного байесовского классификатора. 5. Описание выборки и проведения экспериментов не позволили рецензенту оценить, как же именно и на выборках какого размера проводилась оценка алгоритмов. 6. Работа содержит орфографические (например, «В виду того» на стр. 10), пунктуационные (точки в заголовках и отсутствие разделителей в списках), пунктуационные (например, «Разработка процедуры классификации по набору данных, для которых классы заранее известны называется обучением с учителем» на стр. 14), множество стилистических ошибок (в том числе неверное или некорректное использование терминов). 7. Встречаются также проблемы в оформлении: встречаются нестандартный формат ссылок (например, последнее предложение на 11 стр.), проблемы в оформлении формул (например, на стр. 12). Считаю, что работа написана и оформлена таким образом, что не позволяет объективно судить о качестве полученных результатов, поэтому считаю, что он заслуживает оценку «удовлетворительно». К.ф.-м.н., Доцент каф. КТ Университет ИТМО Фильченков. А.А.