Statistical multicriteria methods of analysis data with application in pharmacology and genetics

Скурат Евгения Петровна; Skurat Evgenia Petrovna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/32526

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Ананьевская Полина Валерьевна	ru_RU
dc.contributor.advisor	Ananevskaa Polina Valerevna	en_GB
dc.contributor.author	Скурат Евгения Петровна	ru_RU
dc.contributor.author	Skurat Evgenia Petrovna	en_GB
dc.contributor.editor	Алексеева Нина Петровна	ru_RU
dc.contributor.editor	Alekseeva Nina Petrovna	en_GB
dc.date.accessioned	2021-08-07T09:11:54Z	-
dc.date.available	2021-08-07T09:11:54Z	-
dc.date.issued	2021
dc.identifier.other	065296	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/32526	-
dc.description.abstract	Статистическая задача сравнения одной зависимой переменной с набором нескольких независимых дихотомических переменных является актуальной, особенно, когда влияние различных факторов на зависимую переменную изучается отдельно и все возможные взаимосвязи незначительны. Становится очевидным, что отдельных факторов зачастую недостаточно для описания группы риска. В данной ситуации, в случае учитывая множества факторов, возникает проблема уменьшения размерности, которая означает поиск нескольких функций факторов с наименьшей потерей информации. Модели таких функций могут быть разными. В рамках данной работы мы рассматриваем и применяем модели симптом-синдромные (Алексеева Н.П. 2013). Для данных моделей предикат выражается в виде линейных комбинаций над полем F2, которые образуют конечное проективное пространство. Если построить конечное проективное пространство для 2^𝑘 − 1 различных невырожденных умножений без повторений, то получим полиномы Жегалкина, которые и описывают все виды логических функций - все возможные комбинации логических операций этих 𝑘 переменных: сложение, умножение, отрицание. Известно, что каждая логическая функция может быть представлена в форме полинома Жегалкина уникальным образом, поэтому, используя их для итерации, можно найти логическую функцию, которая наилучшим образом описывает группу риска. К сожалению, существует проблема в сложности расчетов, которая приводит к вводу ограничения: будем рассматривать порядок 3 − 4 зависимых факторов. Отметим, что этого порядка уже достаточно для определения группы риска, которая описывается логической комбинацией факторов. Данный метод был изучен и практически применен в главе 1 для выявления генетических факторов риска у пациентов с синдромом алкогольной зависимости, получающих терапию алкогольной зависимости (Санкт-Петербургский психоневрологический научно-исследовательский институт им. В.М. Бехтерева). При анализе симптомов выживания использовался тест Э. Уилкоксона Э. А. Гехана (1975). В рамках анализа данных, описанных в главе 1, не удалось выявить никаких значимых отличий между индексом тяжести зависимости (психиатрический статус, употребление наркотиков) и генетическими факторами у пациентов с синдромом алкогольной зависимости. В связи с этим, появилась потребность обратиться к двумерному гамма-распределению для проверки того, а нет ли значимых отличий в динамике в разных группах, данному подходу посвящена глава 2. Следующим шагом возникла идея объединить оба подхода к исследованию данных и совместить их, что было выполнено во второй главе в разделе 2.8: сначала посредством перебора всех возможным симптомов и суперсимптомов найти тот, которые согласно модели двумерно гамма-распределения даст значимые отличия в разных группах в динамике (в нашем случае динамике по времени выбывания из программы). Завершающая часть работы (глава 3) посвящена еще одной популярной проблеме - анализ неполных данных. В работе рассмотрена идея анализа неполных данных без удаления или замены пропусков. Идея предлагаемого метода заключается в том, чтобы вместо одной дискриминантной функции, построенной сразу по всем независимым переменным, рассмотреть совокупность наиболее значимых частичных дискриминантных функций. Откуда возникла задача выражения полной дискриминантной функции через частные.	ru_RU
dc.description.abstract	The statistical problem of comparing one dependent variable with a set of several independent dichotomous variables is relevant, especially when the influence of various factors on the dependent variable is studied separately and all possible relationships are insignificant. It becomes obvious that individual factors are often not enough to describe the risk group. In this situation, if many factors are taken into account, the problem of reducing the dimension arises, which means searching for several functions of factors with the least loss of information. The models of such functions can be different. In this paper, we consider and we use the symptom-syndrome models (Alekseeva N. P. 2013). For these models, the predicate is expressed as linear combinations over the field F2, which form a finite projective space. If we construct a finite proctive space for 2^𝑘 - 1 different non-degenerate multiplications without repetitions, we get Zhegalkin polynomials, which describe all kinds of logical functions - all possible combinations of logical operations of these variables: addition, multiplication, negation. It is known that each logical function can be represented in the form of a Zhegalkin polynomial in a unique way, so using them for iteration, you can find a logical function that best describes the risk group. Unfortunately, there is a problem in the complexity of the calculations, which leads to the introduction of a restriction: we will consider the order of 3-4 dependent factors. Note that this order is already sufficient to determine the risk group, which is described by a logical combination of factors. This method was studied and practically applied in Chapter 1 to identify genetic risk factors in patients with alcohol dependence syndrome receiving alcohol dependence therapy (St. Petersburg Psychoneurological Research Institute named after V. M. Bekhterev). The E. Wilcoxon test of E. A. Gehan (1975) was used in the analysis of survival symptoms. The analysis of the data described in chapter 1 failed to identify any significant differences between the index of addiction severity (psychiatric status, drug use) and genetic factors in patients with alcohol dependence syndrome. In this regard, there is a need to turn to the two-dimensional gamma distribution to check whether there are significant differences in the dynamics in different groups, this approach is devoted to Chapter 2. The next step came the idea to combine both approaches to research data and to combine them, what happened vypolneno in the second Chapter, section 2.8: first iterate through all vozmozhnym symptoms and supercinema finding the one that according to the model of two-dimensional gamma distribution will give significant differences in different groups in dynamics (in our case, the dynamics at the time of the retirement of the program). The final part of the work (Chapter 3) is devoted to another popular problem-the analysis of incomplete data. The paper considers the idea of analyzing incomplete data without deleting or replacing omissions. The idea of the proposed method is to consider a set of the most significant partial discriminant functions instead of a single discriminant function constructed for all independent variables at once. As a result, the problem of expressing the complete discriminant function in terms of quotients arose.	en_GB
dc.language.iso	ru
dc.subject	многомерные категориальные данные	ru_RU
dc.subject	уменьшение размерности	ru_RU
dc.subject	полиномы Жегалкина	ru_RU
dc.subject	анализ симптомов	ru_RU
dc.subject	двумерное гамма распределение	ru_RU
dc.subject	оценки параметров гамма-распределения	ru_RU
dc.subject	дискриминантная функция	ru_RU
dc.subject	частные дискриминантные функции	ru_RU
dc.subject	multidimensional categorical data	en_GB
dc.subject	dimension reduction	en_GB
dc.subject	Zhegalkin polynomials	en_GB
dc.subject	symptom analysis	en_GB
dc.subject	two-dimensional gamma distribution	en_GB
dc.subject	estimates of gamma distribution parameters	en_GB
dc.subject	discriminant function	en_GB
dc.subject	partial discriminant functions	en_GB
dc.title	Statistical multicriteria methods of analysis data with application in pharmacology and genetics	en_GB
dc.title.alternative	Статистические многокритериальные методы анализа данных с приложением в фармакологии и генетике	ru_RU
Располагается в коллекциях:	DOCTORAL STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Skurat_VKR.pdf	Article	588,4 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета