Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/42845
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorСмирнов Кирилл Константиновичru_RU
dc.contributor.advisorSmirnov Kirill Konstantinovicen_GB
dc.contributor.authorСмирнов Александр Андреевичru_RU
dc.contributor.authorSmirnov Aleksandr Andreevicen_GB
dc.contributor.editorМихайлова Елена Георгиевнаru_RU
dc.contributor.editorMihajlova Elena Georgievnaen_GB
dc.date.accessioned2023-07-26T12:45:01Z-
dc.date.available2023-07-26T12:45:01Z-
dc.date.issued2023
dc.identifier.other077328en_GB
dc.identifier.urihttp://hdl.handle.net/11701/42845-
dc.description.abstractЗависимость включения --- одна из закономерностей, которые могут удерживаться между столбцами таблицы. Задача поиска таких закономерностей в данных широко известна как среди ученых, так и в индустриальной среде. Эта задача алгоритмически сложная, и для её решения были разработаны различные алгоритмы. Однако исследования в этом направлении в большей степени изучают только алгоритмическую составляющую, не акцентируя внимание на деталях реализации. В даннной работе предложен подход к эффективной реализации алгорима Faida -- приближенного алгоритма поиска зависимостей включения. В подходе применяются четыре оптимизации: подбор хеш-таблицы, буферизация, SIMD-вычисления и распраллеливание. Чтобы выяснить, как предложенные оптимизации влияют на производительность, алгоритм был реализован на C++ в рамках Desbordante --- профайлера данных с открытым исходным кодом. Эксперименты показали, что все оптимизации улучшают производительность. Также было проведено сравнение с существующей Java-реализацией алгоритма из Metanome. Было выяснено, что оптимизированная C++-версия работает в среднем в 3.7 раз быстрее Java-версии.ru_RU
dc.description.abstractInclusion dependency is a relation between attributes of tables that indicates possible Primary Key--Foreign Key references. Automatic discovery of inclusion dependencies is a relevant problem for both academic and industrial communities. The core concern for this problem is the efficiency of discovery process since it is a computationally expensive task. However, existing studies only address the algorithmic side, while leaving out the implementation aspect. At the same time, engineering details are at least as important as the algorithmic ones for achieving good performance. In this work the techniques for efficient implementation of the Faida algorithm for discovery of inclusion dependencies has been described. Faida is the state-of-the-art approximate algorithm, which has been approached by applying four types of optimizations: data buffering, SIMD-enabled execution, careful hash-table selection and parallelization. In order to experimentally evaluate proposed techniques, Faida have been implemented in Desbordante --- an open-source science-intensive data profiler written in C++. It has been demonstrated that all optimization techniques yield results. The implementation has been also compared with Metanome --- a Java-based data profiler. Overall, in terms of run time reduction the 3.7x on average improvement has been achieved.en_GB
dc.language.isoru
dc.subjectзависимости включенияru_RU
dc.subjectограничения целостностиru_RU
dc.subjectпрофилирование данныхru_RU
dc.subjectизвлечение знанийru_RU
dc.subjectпроектирование алгоритмовru_RU
dc.subjectinclusion dependencyen_GB
dc.subjectdatabase constraintsen_GB
dc.subjectdata profilingen_GB
dc.subjectknowledge discoveryen_GB
dc.subjectalgorithm designen_GB
dc.titleImplementation of inclusion dependency discovery algorithm on Desbordante platformen_GB
dc.title.alternativeРеализация алгоритма для поиска зависимостей включения в рамках платформы Desbordanteru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
diploma.pdfArticle306,31 kBAdobe PDFПросмотреть/Открыть
reviewSV_st077328_Smirnov_Aleksandr_Andreevic_(supervisor)(Ru).txtReviewSV4,77 kBTextПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.