Time series clustering

Староверова Ксения Юрьевна; Staroverova Kseniia

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/11626

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Кириллов Александр Николаевич	ru_RU
dc.contributor.author	Староверова Ксения Юрьевна	ru_RU
dc.contributor.author	Staroverova Kseniia	en_GB
dc.contributor.editor	Буре Владимир Мансурович	ru_RU
dc.contributor.editor	Bure Vladimir Mаnsurovich	en_GB
dc.date.accessioned	2018-07-25T20:34:45Z	-
dc.date.available	2018-07-25T20:34:45Z	-
dc.date.issued	2017
dc.identifier.other	016234	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/11626	-
dc.description.abstract	Задача кластеризации временных рядов в литературе выделена как самостоятельная задача. Это связано с тем, что классические метрики (расстояние Евклида, Манхэттенское , Минковского) не учитывают зависимость данных от времени. При использовании такихметриквременнойрядрассматриваетсякакслучайныйвектор, а не процесс. Однако, задача кластеризации временных рядов имеет важное значение, например, в распознавании речи, языка жестов и т.д. Поэтому актуальной задачей является поиск мер схожести, учитывающих природу временных рядов. Получается, чтобы определить являются ли временные ряды схожими, нужно учитывать не только их геометрическую отдаленность, но и характер динамики и изменчивости ряда. Много работ посвящено этой проблематике, существуют метрики, которые основаны на предположении, что временной ряд принадлежит определенному классу моделей; есть методы, которые используют для кластеризации расстояние между спектральными характеристиками и т.д. Эти метрики показывают хорошие результаты при кластеризации больших данных, однако на коротких временных рядах они работают хуже. Несмотря на то, что обработка больших данных является очень актуальной в наше время,остались прикладные области,которые представлены короткими временными рядами, например, экономика, социология и т.д. В связи с этим предложена новая метрика для кластеризации временных рядов, которая учитывает расстояние между характеристиками ряда трех типов: геометрическими, динамическими и изменчивости. Характеристики первого типа представляют собой статистики, которые могут быть вычислены для обычного случайного вектора. Перед тем, как вычислить такие характеристики производится нормализация данных, таким образом величины становятся соизмеримыми.Второй тип характеристик показывает исключительно динамику ряда, например, если на одном и том же временном промежутке два ряда одновременно возрастают / убывают, то их динамика является близкой. Третий тип характеристик вычисляется после нормализации данных, где максимальное значение каждого ряда равно 1, а минимальное —0. Такое преобразование позволяет не учитывать геометрическое различие данных, при этом уделяя внимание таким показателям, как скорость роста или спада ряда и т.д. Эксперименты на искусственных и реальных данных показывают целесообразность использования алгоритма. Также в работе предложен новый эвристический алгоритм, который позволяет получить четкую кластеризацию в случае неопределенности.Эта проблема появляется всегда при использовании различных подходов кластеризации: какие-то объекты всегда попадают в один и тот же кластер, в то время как другие могут менять свое положение в зависимости от выбранного способа. Получается, что один объект может принадлежать сразу нескольким кластерам. В прикладных задачах такой результат может сделать затруднительным интерпретацию результатов экспертами. Идея алгоритма состоит в том, что выбор нужного кластера — это игра голосования, где кандидатами являются различные варианты распределения объектов, а голосующими — критерии качества кластеризации, которые формулируются для каждой задачи отдельно. В работе проведено исследование показателя заболеваемости: сначала детской заболеваемости, где было построено несколько моделей и из них выбрано 4 наилучших. На основе этих кластеризаций сначала выделены стабильные кластеры, затем применен эвристический алгоритм для распределения спорных объектов по этим кластерам. Следующим этапом работы является многомерная кластеризация рядов, где размерностями являются возрастные группы. Здесь применены методы разных подходов многомерной кластеризации: когда ряд считается неделимым и когда он разбивается на несколько одномерных, а затем информация суммируется. Таким образом в работе предложена новая мера различия временных рядов, эвристический алгоритм для распределения спорных объектов по кластерам и проведено исследование однородности показателя заболеваемости у жителей Санкт-Петербурга.	ru_RU
dc.description.abstract	Methods of statistical analysis are often used for hypothesis testing. That is why mathematical approaches are applied for problems from diﬀerent ﬁelds. We present a research on Saint Petersburg morbidity rate. Medical organizations in the city have an executive body responsible for control and supervision. However, every district has his own one, so possibly the quality of work of executive bodies can aﬀect health problems of inhabitants of the district. The aim of the research is to detect the heterogeneity in districts of the city with respect to morbidity rate, which was chosen as an indicator of population health. Methods of cluster analysis was utilized for detection of homogeneous groups of districts. Key feature is that data are time dependent so it is necessary to use special distance. There are a huge amount of studies of time series dissimilarity measures which are based on autocorrelation, spectral characteristics, assumptions of time series model, correlation, wavelet transformation and others. Most of them work well only with long time series. Unfortunately, such ﬁelds as economics or demography are more presented by short time series. Therefore we propose a new dissimilarity measure based on time series characteristics (CBD characteristics based distance). The distance is a linear combination of 3 values. The ﬁrst presents the dissimilarity of such statistical characteristics as mean, standard deviation, median, minimum and maximum values. The second is dissimilarity with respect to dynamic. The third is distance between behavior characteristics. Every addend ﬂuctuates between 0 (absolutely similar time series in some sense) and 1 (absolutely diﬀerent time series in some sense). It is obtained due to the special normalization. The distance was tested on several datasets and it showed appropriate results for further application. Each district is characterized by three values: children, teenagers and adult morbidity that call for multidimensional time series analysis. There are mainly two approaches: the overall matching and match-by-dimension. The ﬁrst one takes the multidimensional time series as a whole to save the important correlations of the variables. The second one conducts the univariate clustering and then uses some techniques to aggregate information from all dimensions. Firstly, we made a multidimensional clustering analysis correspondingly to both approaches described above. Then we made deeper research on children morbidity and propose a new dissimilarity measure for short time series. Several clustering models were built. We found such districts that belonged to the same clusters in all models and named it “stable clusters”. Several districts were not determined to any stable cluster. Consequently, we propose a heuristic algorithm to cope with such objects. It is based on Borda count The indeterminate object includes in one of stable clusters correspondingly to several criteria, which are chosen in accordance with aim of research. Children morbidity has the highest inﬂuence on result of MTS clustering. Besides, it is socially important value in healthcare system. That is why we conducted deeper research on it. We construct more than 9 clustering models and chose 4 with the highest silhouette index and Dunn index. The model obtained with CBD was included too. Then we deﬁned stable clusters and applied a heuristic algorithm to set indeterminate districts to the found clusters. Thus new dissimilarity measure for time series clustering and a heuristic algorithm for dealing with indeterminate objects were proposed. A research on heterogeneity of morbidity rate in Saint Petersburg was conducted.	en_GB
dc.language.iso	ru
dc.subject	кластерный анализ	ru_RU
dc.subject	временные ряды	ru_RU
dc.subject	clustering	en_GB
dc.subject	time series	en_GB
dc.title	Time series clustering	en_GB
dc.title.alternative	Кластеризация временных рядов	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
2017_05_03_Magisterskaya_Staroverova_K_YU_.pdf	Article	1,38 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_otzyv_nr_na_VKR_K__YU__Staroverovoj.pdf	ReviewSV	800,92 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_Staroverova_Kseniya_YUrevna.jpg	ReviewRev	386,59 kB	JPEG	Просмотреть/Открыть
reviewSV_st006717_Bure_Vladimir_Mansurovich_(supervisor)(Ru).txt	ReviewSV	4,16 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета