Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/42842
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorКлючиков Евгений Сергеевичru_RU
dc.contributor.advisorKlucikov Evgenij Sergeevicen_GB
dc.contributor.authorПолынцов Михаил Александровичru_RU
dc.contributor.authorPolyncov Mihail Aleksandrovicen_GB
dc.contributor.editorМихайлова Елена Георгиевнаru_RU
dc.contributor.editorMihajlova Elena Georgievnaen_GB
dc.date.accessioned2023-07-26T12:45:01Z-
dc.date.available2023-07-26T12:45:01Z-
dc.date.issued2023
dc.identifier.other077236en_GB
dc.identifier.urihttp://hdl.handle.net/11701/42842-
dc.description.abstractПрофилирование данных можно определить как процесс анализа данных, направленный на извлечение метаданных. Уникальные комбинации колонок (UCC) являются важными метаданными, поскольку используются для решениях многих практических задач. Desbordante~--- высокопроизводительный профилировщик данных с открытым исходным кодом, в данный момент не поддерживающий алгоритмы поиска UCC. В настоящей работе выполняется обзор известных алгоритмов поиска UCC. Описывается принцип работы одного из самых эффективных алгоритмов HyUCC. Описывается Desbordante и представляются детали реализации HyUCC в нем. Также описываются способы оптимизаций алгоритма с помощью введения многопоточности. Проводится экспериментальное исследование, по результатам которого делается вывод, что оптимизированная версия реализованного автором алгоритма HyUCC в Desbordante на порядок эффективнее реализации в другом профилировщике Metanome как по времени выполнения, так и по потребляемой памяти.ru_RU
dc.description.abstractData profiling can be defined as the process of data analysis aimed at extracting metadata. Unique column combinations (UCC) are crucial metadata, as they are used to solve many practical problems. Desbordante is a high-performance open-source data profiler that currently does not support UCC discovery algorithms. A review of known UCC discovery algorithms is presented in this work. The principle of operation of one of the most effective algorithms, HyUCC, is described. The Desbordante platform is outlined and the details of implementing HyUCC in it are presented. Additionally, various methods for optimizing the algorithm using multithreading are described. An experimental study is conducted, from the results of which it is concluded that the optimized version of the HyUCC algorithm implemented by the author in Desbordante is more than ten times more efficient than the implementation in another profiler, Metanome, in terms of both run time and memory usage.en_GB
dc.language.isoru
dc.subjectпрофилирование данныхru_RU
dc.subjectуникальные комбинации колонокru_RU
dc.subjectC++ru_RU
dc.subjectмногопоточностьru_RU
dc.subjectпоиск зависимостейru_RU
dc.subjectdata profilingen_GB
dc.subjectunique column combinationsen_GB
dc.subjectC++en_GB
dc.subjectmultithreadingen_GB
dc.subjectdependency discoveryen_GB
dc.titleImplementing UCC discovery algorithm within the Desbordante platformen_GB
dc.title.alternativeРеализация алгоритма поиска UCC в рамках платформы Desbordanteru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
PolyntsovThesis.pdfArticle624,44 kBAdobe PDFПросмотреть/Открыть
reviewSV_st077236_Polyncov_Mihail_Aleksandrovic_(supervisor)(Ru).txtReviewSV3,46 kBTextПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.