Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/12163
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorЕпифанов Николай Анатольевичru_RU
dc.contributor.authorРомашов Дмитрий Сергеевичru_RU
dc.contributor.authorRomashov Dmitriyen_GB
dc.contributor.editorГришкин Валерий Михайловичru_RU
dc.contributor.editorGrishkin Valerii Mikhаilovichen_GB
dc.date.accessioned2018-07-26T15:17:12Z-
dc.date.available2018-07-26T15:17:12Z-
dc.date.issued2018
dc.identifier.other012213en_GB
dc.identifier.urihttp://hdl.handle.net/11701/12163-
dc.description.abstractДанная выпускная квалификационная работа посвящена исследованию способов определения нечётких дубликатов текстов, изображений, а также способов их комбинирования для обнаружения дубликатов сущностей, состоящих из разнородных данных. В качестве таких сущностей выступали объявления с сайта Avito. В данной работе объявления представлялись как вектора признаков, которые были разработаны чтобы максимально точно отделять дубликаты от не дубликатов. Для поиска похожих объявлений использовались алгоритмы классификации, параметры которых были настроены для получения наилучших по качеству результатов. Применённый подход показал хорошие результаты, которые были лучше по сравнению с работой только с текстом или изображениями.ru_RU
dc.description.abstractThis final qualifying work is devoted to the study of methods for determining fuzzy duplicates of texts, images and entities consisting of heterogeneous data. Such entities were advertisements from the website Avito. In this paper, advertisements were presented as feature vectors that were designed to separate duplicates from non-duplicates as accurately as possible. To find similar ads, classification algorithms were used, the parameters of which were adjusted to obtain the best quality results. The applied approach showed good results, which were better in comparison with working only with text or images.en_GB
dc.language.isoru
dc.subjectнечёткий дубликатru_RU
dc.subjectстеммингru_RU
dc.subjectкоэффициент Жаккараru_RU
dc.subjectперцептивный хэшru_RU
dc.subjectрасстояние Хэммингаru_RU
dc.subjectгистограммаru_RU
dc.subjectрасстояние Хеллингераru_RU
dc.subjectметод опорных векторовru_RU
dc.subjectметод k ближайших соседейru_RU
dc.subjectрешающее деревоru_RU
dc.subjectслучайный лесru_RU
dc.subjectfuzzy duplicateen_GB
dc.subjectstemmingen_GB
dc.subjectJaccard coefficienten_GB
dc.subjectperceptual hashingen_GB
dc.subjectHamming distanceen_GB
dc.subjectsupport vector machineen_GB
dc.subjectk-nearest neighbors algorithmen_GB
dc.subjectdecision treeen_GB
dc.subjectrandom foresten_GB
dc.titleSearch for similar objects in multimedia dataen_GB
dc.title.alternativeПоиск похожих объектов в мультимедийных данныхru_RU
Располагается в коллекциях:MASTER'S STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.