Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/11626
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorКириллов Александр Николаевичru_RU
dc.contributor.authorСтароверова Ксения Юрьевнаru_RU
dc.contributor.authorStaroverova Kseniiaen_GB
dc.contributor.editorБуре Владимир Мансуровичru_RU
dc.contributor.editorBure Vladimir Mаnsurovichen_GB
dc.date.accessioned2018-07-25T20:34:45Z-
dc.date.available2018-07-25T20:34:45Z-
dc.date.issued2017
dc.identifier.other016234en_GB
dc.identifier.urihttp://hdl.handle.net/11701/11626-
dc.description.abstractЗадача кластеризации временных рядов в литературе выделена как самостоятельная задача. Это связано с тем, что классические метрики (расстояние Евклида, Манхэттенское , Минковского) не учитывают зависимость данных от времени. При использовании такихметриквременнойрядрассматриваетсякакслучайныйвектор, а не процесс. Однако, задача кластеризации временных рядов имеет важное значение, например, в распознавании речи, языка жестов и т.д. Поэтому актуальной задачей является поиск мер схожести, учитывающих природу временных рядов. Получается, чтобы определить являются ли временные ряды схожими, нужно учитывать не только их геометрическую отдаленность, но и характер динамики и изменчивости ряда. Много работ посвящено этой проблематике, существуют метрики, которые основаны на предположении, что временной ряд принадлежит определенному классу моделей; есть методы, которые используют для кластеризации расстояние между спектральными характеристиками и т.д. Эти метрики показывают хорошие результаты при кластеризации больших данных, однако на коротких временных рядах они работают хуже. Несмотря на то, что обработка больших данных является очень актуальной в наше время,остались прикладные области,которые представлены короткими временными рядами, например, экономика, социология и т.д. В связи с этим предложена новая метрика для кластеризации временных рядов, которая учитывает расстояние между характеристиками ряда трех типов: геометрическими, динамическими и изменчивости. Характеристики первого типа представляют собой статистики, которые могут быть вычислены для обычного случайного вектора. Перед тем, как вычислить такие характеристики производится нормализация данных, таким образом величины становятся соизмеримыми.Второй тип характеристик показывает исключительно динамику ряда, например, если на одном и том же временном промежутке два ряда одновременно возрастают / убывают, то их динамика является близкой. Третий тип характеристик вычисляется после нормализации данных, где максимальное значение каждого ряда равно 1, а минимальное —0. Такое преобразование позволяет не учитывать геометрическое различие данных, при этом уделяя внимание таким показателям, как скорость роста или спада ряда и т.д. Эксперименты на искусственных и реальных данных показывают целесообразность использования алгоритма. Также в работе предложен новый эвристический алгоритм, который позволяет получить четкую кластеризацию в случае неопределенности.Эта проблема появляется всегда при использовании различных подходов кластеризации: какие-то объекты всегда попадают в один и тот же кластер, в то время как другие могут менять свое положение в зависимости от выбранного способа. Получается, что один объект может принадлежать сразу нескольким кластерам. В прикладных задачах такой результат может сделать затруднительным интерпретацию результатов экспертами. Идея алгоритма состоит в том, что выбор нужного кластера — это игра голосования, где кандидатами являются различные варианты распределения объектов, а голосующими — критерии качества кластеризации, которые формулируются для каждой задачи отдельно. В работе проведено исследование показателя заболеваемости: сначала детской заболеваемости, где было построено несколько моделей и из них выбрано 4 наилучших. На основе этих кластеризаций сначала выделены стабильные кластеры, затем применен эвристический алгоритм для распределения спорных объектов по этим кластерам. Следующим этапом работы является многомерная кластеризация рядов, где размерностями являются возрастные группы. Здесь применены методы разных подходов многомерной кластеризации: когда ряд считается неделимым и когда он разбивается на несколько одномерных, а затем информация суммируется. Таким образом в работе предложена новая мера различия временных рядов, эвристический алгоритм для распределения спорных объектов по кластерам и проведено исследование однородности показателя заболеваемости у жителей Санкт-Петербурга.ru_RU
dc.description.abstractMethods of statistical analysis are often used for hypothesis testing. That is why mathematical approaches are applied for problems from different fields. We present a research on Saint Petersburg morbidity rate. Medical organizations in the city have an executive body responsible for control and supervision. However, every district has his own one, so possibly the quality of work of executive bodies can affect health problems of inhabitants of the district. The aim of the research is to detect the heterogeneity in districts of the city with respect to morbidity rate, which was chosen as an indicator of population health. Methods of cluster analysis was utilized for detection of homogeneous groups of districts. Key feature is that data are time dependent so it is necessary to use special distance. There are a huge amount of studies of time series dissimilarity measures which are based on autocorrelation, spectral characteristics, assumptions of time series model, correlation, wavelet transformation and others. Most of them work well only with long time series. Unfortunately, such fields as economics or demography are more presented by short time series. Therefore we propose a new dissimilarity measure based on time series characteristics (CBD characteristics based distance). The distance is a linear combination of 3 values. The first presents the dissimilarity of such statistical characteristics as mean, standard deviation, median, minimum and maximum values. The second is dissimilarity with respect to dynamic. The third is distance between behavior characteristics. Every addend fluctuates between 0 (absolutely similar time series in some sense) and 1 (absolutely different time series in some sense). It is obtained due to the special normalization. The distance was tested on several datasets and it showed appropriate results for further application. Each district is characterized by three values: children, teenagers and adult morbidity that call for multidimensional time series analysis. There are mainly two approaches: the overall matching and match-by-dimension. The first one takes the multidimensional time series as a whole to save the important correlations of the variables. The second one conducts the univariate clustering and then uses some techniques to aggregate information from all dimensions. Firstly, we made a multidimensional clustering analysis correspondingly to both approaches described above. Then we made deeper research on children morbidity and propose a new dissimilarity measure for short time series. Several clustering models were built. We found such districts that belonged to the same clusters in all models and named it “stable clusters”. Several districts were not determined to any stable cluster. Consequently, we propose a heuristic algorithm to cope with such objects. It is based on Borda count The indeterminate object includes in one of stable clusters correspondingly to several criteria, which are chosen in accordance with aim of research. Children morbidity has the highest influence on result of MTS clustering. Besides, it is socially important value in healthcare system. That is why we conducted deeper research on it. We construct more than 9 clustering models and chose 4 with the highest silhouette index and Dunn index. The model obtained with CBD was included too. Then we defined stable clusters and applied a heuristic algorithm to set indeterminate districts to the found clusters. Thus new dissimilarity measure for time series clustering and a heuristic algorithm for dealing with indeterminate objects were proposed. A research on heterogeneity of morbidity rate in Saint Petersburg was conducted.en_GB
dc.language.isoru
dc.subjectкластерный анализru_RU
dc.subjectвременные рядыru_RU
dc.subjectclusteringen_GB
dc.subjecttime seriesen_GB
dc.titleTime series clusteringen_GB
dc.title.alternativeКластеризация временных рядовru_RU
Располагается в коллекциях:MASTER'S STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.