Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/42845
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Смирнов Кирилл Константинович | ru_RU |
dc.contributor.advisor | Smirnov Kirill Konstantinovic | en_GB |
dc.contributor.author | Смирнов Александр Андреевич | ru_RU |
dc.contributor.author | Smirnov Aleksandr Andreevic | en_GB |
dc.contributor.editor | Михайлова Елена Георгиевна | ru_RU |
dc.contributor.editor | Mihajlova Elena Georgievna | en_GB |
dc.date.accessioned | 2023-07-26T12:45:01Z | - |
dc.date.available | 2023-07-26T12:45:01Z | - |
dc.date.issued | 2023 | |
dc.identifier.other | 077328 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/42845 | - |
dc.description.abstract | Зависимость включения --- одна из закономерностей, которые могут удерживаться между столбцами таблицы. Задача поиска таких закономерностей в данных широко известна как среди ученых, так и в индустриальной среде. Эта задача алгоритмически сложная, и для её решения были разработаны различные алгоритмы. Однако исследования в этом направлении в большей степени изучают только алгоритмическую составляющую, не акцентируя внимание на деталях реализации. В даннной работе предложен подход к эффективной реализации алгорима Faida -- приближенного алгоритма поиска зависимостей включения. В подходе применяются четыре оптимизации: подбор хеш-таблицы, буферизация, SIMD-вычисления и распраллеливание. Чтобы выяснить, как предложенные оптимизации влияют на производительность, алгоритм был реализован на C++ в рамках Desbordante --- профайлера данных с открытым исходным кодом. Эксперименты показали, что все оптимизации улучшают производительность. Также было проведено сравнение с существующей Java-реализацией алгоритма из Metanome. Было выяснено, что оптимизированная C++-версия работает в среднем в 3.7 раз быстрее Java-версии. | ru_RU |
dc.description.abstract | Inclusion dependency is a relation between attributes of tables that indicates possible Primary Key--Foreign Key references. Automatic discovery of inclusion dependencies is a relevant problem for both academic and industrial communities. The core concern for this problem is the efficiency of discovery process since it is a computationally expensive task. However, existing studies only address the algorithmic side, while leaving out the implementation aspect. At the same time, engineering details are at least as important as the algorithmic ones for achieving good performance. In this work the techniques for efficient implementation of the Faida algorithm for discovery of inclusion dependencies has been described. Faida is the state-of-the-art approximate algorithm, which has been approached by applying four types of optimizations: data buffering, SIMD-enabled execution, careful hash-table selection and parallelization. In order to experimentally evaluate proposed techniques, Faida have been implemented in Desbordante --- an open-source science-intensive data profiler written in C++. It has been demonstrated that all optimization techniques yield results. The implementation has been also compared with Metanome --- a Java-based data profiler. Overall, in terms of run time reduction the 3.7x on average improvement has been achieved. | en_GB |
dc.language.iso | ru | |
dc.subject | зависимости включения | ru_RU |
dc.subject | ограничения целостности | ru_RU |
dc.subject | профилирование данных | ru_RU |
dc.subject | извлечение знаний | ru_RU |
dc.subject | проектирование алгоритмов | ru_RU |
dc.subject | inclusion dependency | en_GB |
dc.subject | database constraints | en_GB |
dc.subject | data profiling | en_GB |
dc.subject | knowledge discovery | en_GB |
dc.subject | algorithm design | en_GB |
dc.title | Implementation of inclusion dependency discovery algorithm on Desbordante platform | en_GB |
dc.title.alternative | Реализация алгоритма для поиска зависимостей включения в рамках платформы Desbordante | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
diploma.pdf | Article | 306,31 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st077328_Smirnov_Aleksandr_Andreevic_(supervisor)(Ru).txt | ReviewSV | 4,77 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.