Отзыв на магистерскую диссертацию Ромашова Дмитрия Сергеевича «Поиск похожих объектов в мультимедийных данных» Диссертация Ромашова Д.С. посвящена одной из задач, возникающих при обработке больших объемов данных – поиску похожих объектов, описываемых с помощью данных различной природы. В настоящее время методы поиска объектов, описывающихся текстовыми и числовыми данными достаточно хорошо разработаны. Однако, если данные содержат также и визуальную информацию, как в случае с мультимедийными данными, то использовать эти методы напрямую нельзя. Поэтому разработка методов поиска похожих объектов в мультимедийных данных, является актуальной задачей. В работе проводится анализ методов работы с текстовыми данными, в том числе и методов их предварительной обработки и сравнения. Рассматриваются также методы обработки изображений необходимые для выявления похожести изображений. В работе предлагается определять похожесть объектов при помощи бинарных классификаторов. Достаточно подробно рассматриваются наиболее хорошо зарекомендовавшие методы классификации, основанные на разделении пространства признаков. Основная проблема, решаемая в диссертационном исследовании, состоит в разработке системы признаков, включающих разнородные признаки сходства текстовой, числовой и графической информации. Для решения этой проблемы предлагается формировать бинарный вектор признаков, каждая компонента, которого принимает значение единица, если соответствующий признак сходства достаточно велик и ноль, в противном случае. В диссертации подробно описывается структура исходных данных, среди которых осуществляется поиск похожих объектов. Эти данные представляют собой описание объявления о продаже различных товаров и услуг и является тестовым набором для оценки алгоритмов поиска дубликатов объявлений. Автор проводит анализ этих данных и для каждого типа данных предлагает использовать соответствующие признаки. Так для текстовой части предлагается вычислять меру сходства заголовков и описаний. Для числовых признаков предлагается определять совпадение чисел, медианы чисел двух объявлений и коэффициент сходства Жаккара. Для изображений предлагается использовать меру сходства гистограмм распределения цветов. Предлагаемая система поиска дубликатов реализована на языке Python c использованием библиотек работы с текстами и изображениями. В диссертации приведены результаты работы системы на достаточно большом наборе объявлений о продажах товаров и услуг, содержащих текстовую и визуальную информацию. Экспериментально исследовались различные алгоритмы классификации такие как - метод k ближайших соседей, метод опорных векторов и решающие деревья. При этом производилась классификация как с использованием визуальной информации, так без неё. Результаты классификации показали существенное повышение качества поиска дубликатов при использовании визуальной информации. В ходе работы Ромашов Д.С. показал глубокие знания в области методов обработки визуальной и текстовой информации, хорошую теоретическую подготовку, а также умение применять на практике современные вычислительные методы. Результаты работы могут быть рекомендованы к публикации. Считаю, что магистерская диссертация Ромашова Д.С. заслуживает оценки «Отлично», а ее автор может быть рекомендован для поступления в аспирантуру. Руководитель, Доцент кафедры КММС, к.т.н. В.М. Гришкин