РЕЦЕНЗИЯ на выпускную квалификационную работу «Самообучающиеся системы и их приложения» Мирошниченко Н. М. Объем цифровых данных, с которым приходится иметь дело индустрии информационных технологий, экспоненциально растет (по оценкам IDC, удваиваясь ежегодно). И вместе с ним растет потребность индустрии в алгоритмах и методах обработки «больших данных» (Big Data). Исследованиями в этой области занимаются ведущие мировые университеты и крупнейшие IT- компании, такие как зарубежные Google, Amazon, Oracle и отечественные Яндекс и Билайн. Одним из направлений анализа «больших данных» является машинное обучение (Machine Learning). Этот раздел прикладной математики посвящен поиску скрытых закономерностей в больших объемах данных; он объединяет в себе методы математической статистики, теории вероятностей, дискретного анализа и численных методов оптимизации. В настоящее время на различных высокоуровневых языках программирования, таких как Python, R и Scala, реализована масса библиотек, предоставляющих «кирпичики» для самостоятельного построения ML- алгоритмов, ориентированных на ту или иную специфическую задачу. Работа Н. М. Мирошниченко посвящена практическому сравнению ряда алгоритмов, реализованных в библиотеках scikit-learn и XGBoost языка Python, в применении к конкретной задаче из области Big Data, предложенной на конкурсе компании Билайн. Суть задачи заключается в том, чтобы на основе анонимизированных данных об абонентах (регион, тарифный план, объемы потребляемых услуг и т. п., всего более 60 параметров) построить модель поведения абонента в зависимости от его возрастной группы. В качестве метрики качества модели используется точность предсказания на тестовой выборке. Работа (не структурно, а идеологически) состоит из двух частей. В первой, реферативной, половине работы автор приводит основные теоретические сведения об используемых ML- алгоритмах: метрических и линейных классификаторах (методы ближайших соседей, метод окна Парзена, метод потенциальных функций, метод стохастического градиента), а также описывает идею композиции различных алгоритмов для повышения точности предсказания и рассматривает один из таких методов (т. н. градиентный бустинг). Вторая, практическая, половина посвящена применению некоторых из указанных выше алгоритмов к конкурсной задаче. Поскольку реализация каждого из алгоритмов зависит от ряда параметров, эта часть в основном сводится к шаманству и эмпирическому подбору настроек, дающих в результате наилучшую точность. Стоит отметить, что в шаманстве автор преуспел: точность предсказания в одной из его программ составила 76.53% (для справки: точность предсказания у победителя конкурса Билайн – 76.39%). Кроме того, автор на собственном опыте подтвердил известный среди специалистов по Big Data факт о том, что бустинговые методы, при прочих равных, дают наилучшие результаты (в частности, библиотека XGBoost для задач классификации является чем-то вроде «золотого стандарта»). Теперь о недостатках. Автор то ли очень торопился донести до читателя свои мысли, то ли не счел нужным перечитать свою собственную работу, но в итоге текст изобилует опечатками, стилистическими и грамматическими ляпами вроде «схожим объектам очень часто соответствуют схожие объекты» или «далее будем аппроксимируем», и даже ошибками в названиях используемых библиотек (вроде «sclearn» вместо «sklearn»). Не говорю уже о множестве недочетов в наборе текста вроде дефисов вместо тире, пробелов перед знаками препинания, непоследовательного использования различных типов кавычек и употребления математических сущностей в не-математическом режиме – и это после теоретического и практического курсов по набору текстов в системе LaTeX! Но самая главная претензия – автор начинает и заканчивает свою работу конкурсом Билайн, но ни в списке литературы, ни в основном тексте работы нет ссылки на конкурс! Таким образом, у читателя нет возможности ни ознакомиться с оригинальной постановкой задачи, ни проверить полученные в работе результаты, и остается лишь верить Однако, перечисленные выше недостатки, хоть и задевают эстетические чувства рецензента, всё же не влияют на достигнутый автором результат – я имею в виду точность предсказания на уровне призеров конкурса (пусть автор и не дал ссылку на конкурс, поисковые системы её быстро находят). Сожаление вызывает тот факт, что работа не содержит никаких теоретических результатов и лишь использует готовые решения от «китайских товарищей из вашингтонского университета. Учитывая вышеизложенное, считаю, что работа заслуживает оценки «ХОРОШО». Канд. физ.-мат. наук Машарский С.М. « 27 » мая 2016 г.