Semantic type detection in columnar data using machine learning
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Определение семантических типов колонок в таблицах является важной задачей в области профилирования данных. На данный момент существующие решения не подходят для работы с данными, содержащими русския язык, а также отсутствует набор данных, который бы позволил обучить модель машинного обучения для решения этой задачи. В данной работе описаны: процесс подготовки данных, разработка модели машинного обучения, способной определять семантические типы колонок в русскоязычных табличных данных, а также процесс обучения и предложенные модификации.
Semantic type detection for columnar data is an important task in the field of data profiling. Existing solutions are not suitable for data containing Russian language, and there is also a lack of datasets that allow training a machine learning model for this task. This work describes the process of data preparation, implementation of a machine learning model capable of determining semantic types of columns in tabular data, the training process, and proposed modifications.
Semantic type detection for columnar data is an important task in the field of data profiling. Existing solutions are not suitable for data containing Russian language, and there is also a lack of datasets that allow training a machine learning model for this task. This work describes the process of data preparation, implementation of a machine learning model capable of determining semantic types of columns in tabular data, the training process, and proposed modifications.