Universal initial duplicate search engine for the Duplicate Finder toolkit

Глазырин Антон Георгиевич; Glazyrin Anton Georgievic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/42629

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Бондарев Антон Владимирович	ru_RU
dc.contributor.advisor	Bondarev Anton Vladimirovic	en_GB
dc.contributor.author	Глазырин Антон Георгиевич	ru_RU
dc.contributor.author	Glazyrin Anton Georgievic	en_GB
dc.contributor.editor	Луцив Дмитрий Вадимович	ru_RU
dc.contributor.editor	Luciv Dmitrij Vadimovic	en_GB
dc.date.accessioned	2023-07-26T12:44:25Z	-
dc.date.available	2023-07-26T12:44:25Z	-
dc.date.issued	2023
dc.identifier.other	054643	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/42629	-
dc.description.abstract	Документация является неотъемлемой частью любого крупного проекта и тоже требует сопровождения. Одним из наиболее влиятельных факторов усложнения ведения документации является наличие большого количества повторов. Для улучшения документации на основе поиска повторов был разработан инструмент Duplicate Finder. Однако, у него есть ряд проблем с компонентами поиска. В данной работе описывается разработка и реализация унифицированной системы поиска точных и неточных повторов, предназначенной заменить эти компоненты. Сначала проводится анализ инструментов из Duplicate Finder, потом разбираются основные этапы конвейера и приводится описание алгоритмов поиска. Затем проводится тестирование реализованного инструмента на наборе документов, представляющих собой документации разных крупных проектов.	ru_RU
dc.description.abstract	Documentation is a vital part of any big project and it's necessary to maintain its quality. One of the factors that can affect this process negatively is the abundance of duplicates. In order to solve this problem, a tool called Duplicate Finder was implemented. Based on duplicate search, this tool can be used to improve the quality of documentation. However, there are some problems regarding some of the components which are responsible for search. This thesis is focused on developing and implementing universal search engine for exact and near-duplicates. First, tools used in Duplicate Finder are analyzed, then the main parts of pipeline and search algorithms are described. Finally, the implemented tool is tested on a compilation of documents that consists of documentations from different projects.	en_GB
dc.language.iso	ru
dc.subject	поиск неточных повторов	ru_RU
dc.subject	документация	ru_RU
dc.subject	программное обеспечение	ru_RU
dc.subject	суффиксный массив	ru_RU
dc.subject	хеширование	ru_RU
dc.subject	n-граммы	ru_RU
dc.subject	near-duplicate search	en_GB
dc.subject	documentation	en_GB
dc.subject	software	en_GB
dc.subject	suffix array	en_GB
dc.subject	hashing	en_GB
dc.subject	n-gram	en_GB
dc.title	Universal initial duplicate search engine for the Duplicate Finder toolkit	en_GB
dc.title.alternative	Универсальный механизм первичного поиска повторов в тексте для пакета Duplicate Finder	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Universalnyj_mehanizm_pervicnogo_poiska_povtorov_v_tekste_dla_paketa_Duplicate_Finder.pdf	Article	565,78 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_glazyrin_testimonal.pdf	ReviewSV	27,34 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_st054643_Glazyrin_Anton_Georgievic_(supervisor)(Ru).txt	ReviewSV	5,71 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета