Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/42842
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Ключиков Евгений Сергеевич | ru_RU |
dc.contributor.advisor | Klucikov Evgenij Sergeevic | en_GB |
dc.contributor.author | Полынцов Михаил Александрович | ru_RU |
dc.contributor.author | Polyncov Mihail Aleksandrovic | en_GB |
dc.contributor.editor | Михайлова Елена Георгиевна | ru_RU |
dc.contributor.editor | Mihajlova Elena Georgievna | en_GB |
dc.date.accessioned | 2023-07-26T12:45:01Z | - |
dc.date.available | 2023-07-26T12:45:01Z | - |
dc.date.issued | 2023 | |
dc.identifier.other | 077236 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/42842 | - |
dc.description.abstract | Профилирование данных можно определить как процесс анализа данных, направленный на извлечение метаданных. Уникальные комбинации колонок (UCC) являются важными метаданными, поскольку используются для решениях многих практических задач. Desbordante~--- высокопроизводительный профилировщик данных с открытым исходным кодом, в данный момент не поддерживающий алгоритмы поиска UCC. В настоящей работе выполняется обзор известных алгоритмов поиска UCC. Описывается принцип работы одного из самых эффективных алгоритмов HyUCC. Описывается Desbordante и представляются детали реализации HyUCC в нем. Также описываются способы оптимизаций алгоритма с помощью введения многопоточности. Проводится экспериментальное исследование, по результатам которого делается вывод, что оптимизированная версия реализованного автором алгоритма HyUCC в Desbordante на порядок эффективнее реализации в другом профилировщике Metanome как по времени выполнения, так и по потребляемой памяти. | ru_RU |
dc.description.abstract | Data profiling can be defined as the process of data analysis aimed at extracting metadata. Unique column combinations (UCC) are crucial metadata, as they are used to solve many practical problems. Desbordante is a high-performance open-source data profiler that currently does not support UCC discovery algorithms. A review of known UCC discovery algorithms is presented in this work. The principle of operation of one of the most effective algorithms, HyUCC, is described. The Desbordante platform is outlined and the details of implementing HyUCC in it are presented. Additionally, various methods for optimizing the algorithm using multithreading are described. An experimental study is conducted, from the results of which it is concluded that the optimized version of the HyUCC algorithm implemented by the author in Desbordante is more than ten times more efficient than the implementation in another profiler, Metanome, in terms of both run time and memory usage. | en_GB |
dc.language.iso | ru | |
dc.subject | профилирование данных | ru_RU |
dc.subject | уникальные комбинации колонок | ru_RU |
dc.subject | C++ | ru_RU |
dc.subject | многопоточность | ru_RU |
dc.subject | поиск зависимостей | ru_RU |
dc.subject | data profiling | en_GB |
dc.subject | unique column combinations | en_GB |
dc.subject | C++ | en_GB |
dc.subject | multithreading | en_GB |
dc.subject | dependency discovery | en_GB |
dc.title | Implementing UCC discovery algorithm within the Desbordante platform | en_GB |
dc.title.alternative | Реализация алгоритма поиска UCC в рамках платформы Desbordante | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
PolyntsovThesis.pdf | Article | 624,44 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st077236_Polyncov_Mihail_Aleksandrovic_(supervisor)(Ru).txt | ReviewSV | 3,46 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.