Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/12163
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Епифанов Николай Анатольевич | ru_RU |
dc.contributor.author | Ромашов Дмитрий Сергеевич | ru_RU |
dc.contributor.author | Romashov Dmitriy | en_GB |
dc.contributor.editor | Гришкин Валерий Михайлович | ru_RU |
dc.contributor.editor | Grishkin Valerii Mikhаilovich | en_GB |
dc.date.accessioned | 2018-07-26T15:17:12Z | - |
dc.date.available | 2018-07-26T15:17:12Z | - |
dc.date.issued | 2018 | |
dc.identifier.other | 012213 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/12163 | - |
dc.description.abstract | Данная выпускная квалификационная работа посвящена исследованию способов определения нечётких дубликатов текстов, изображений, а также способов их комбинирования для обнаружения дубликатов сущностей, состоящих из разнородных данных. В качестве таких сущностей выступали объявления с сайта Avito. В данной работе объявления представлялись как вектора признаков, которые были разработаны чтобы максимально точно отделять дубликаты от не дубликатов. Для поиска похожих объявлений использовались алгоритмы классификации, параметры которых были настроены для получения наилучших по качеству результатов. Применённый подход показал хорошие результаты, которые были лучше по сравнению с работой только с текстом или изображениями. | ru_RU |
dc.description.abstract | This final qualifying work is devoted to the study of methods for determining fuzzy duplicates of texts, images and entities consisting of heterogeneous data. Such entities were advertisements from the website Avito. In this paper, advertisements were presented as feature vectors that were designed to separate duplicates from non-duplicates as accurately as possible. To find similar ads, classification algorithms were used, the parameters of which were adjusted to obtain the best quality results. The applied approach showed good results, which were better in comparison with working only with text or images. | en_GB |
dc.language.iso | ru | |
dc.subject | нечёткий дубликат | ru_RU |
dc.subject | стемминг | ru_RU |
dc.subject | коэффициент Жаккара | ru_RU |
dc.subject | перцептивный хэш | ru_RU |
dc.subject | расстояние Хэмминга | ru_RU |
dc.subject | гистограмма | ru_RU |
dc.subject | расстояние Хеллингера | ru_RU |
dc.subject | метод опорных векторов | ru_RU |
dc.subject | метод k ближайших соседей | ru_RU |
dc.subject | решающее дерево | ru_RU |
dc.subject | случайный лес | ru_RU |
dc.subject | fuzzy duplicate | en_GB |
dc.subject | stemming | en_GB |
dc.subject | Jaccard coefficient | en_GB |
dc.subject | perceptual hashing | en_GB |
dc.subject | Hamming distance | en_GB |
dc.subject | support vector machine | en_GB |
dc.subject | k-nearest neighbors algorithm | en_GB |
dc.subject | decision tree | en_GB |
dc.subject | random forest | en_GB |
dc.title | Search for similar objects in multimedia data | en_GB |
dc.title.alternative | Поиск похожих объектов в мультимедийных данных | ru_RU |
Располагается в коллекциях: | MASTER'S STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Romashov_Dmitrij_poisk_poxozhix_obektov_v_multimedijnyx_dannyx.pdf | Article | 1,04 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Recenziya_Romashov.pdf | ReviewRev | 941,14 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st007807_Grishkin_Valerij_Mixajlovich_(supervisor)(Ru).txt | ReviewSV | 6,11 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.