Отзыв научного руководителя 
на бакалаврскую работу студента 
Самарина Игоря


на тему: «Модель отрицательно биномиального распределения в анализе категориальных последовательностей»


Данная работа представляет собой продолжение ряда предыдущих выпускных работ по этой тематике, где неоднократно было показано, что в литературных текстах можно выделить довольно большую совокупность слов, удовлетворяющих отрицательному  биномиальному  распределению. Гипотетически тексты должны как-то отличаться по структуре этих параметров, однако этот вопрос оказался непростым, поскольку было непонятно, от чего зависят  эти параметры кроме принадлежности определенной части речи или отношению к именам собственным или нарицательным.  Поэтому было решено выяснить, отличаются  ли параметры этого распределения в текстах с различной эмоциональной окраской. 

Первоначально  был изучен  вопрос классификации текстов с разным тонированием при помощи переходных матриц, и был реализован алгоритм классификации с обучающими выборками в виде положительных и отрицательных отзывов к фильмам.  В этой части студентом была  проявлена  большая самостоятельность, изучены и применены необходимые алгоритмы, приведены примеры классификации текстов.

Затем для двух сопоставимых по размеру текстам с разным тонированием  было осуществлено одинаковое разбиение на главы, получены эмпирические распределения встречаемости слов, по методу максимального правдоподобия оценены параметры отрицательного биномиального распределения и проверена значимость отклонения от указанного закона распределения. 

В основу интерпретации параметров положено применение модели отрицательного биномиального распределения к распределению личинок подкожного овода. По соотношению параметров распределения выживших личинок можно было определить размер инвазии, то есть если вероятность гибели личинки была высока, а число погибших личинок невелико, то это говорило о невысокой степени заражения. Аналогично этому в положительно окрашенных текстах отрицательная  лексика имеет невысокую вероятность употребления при небольшом  числе их неупотреблений, что означает их дефицит. Соответственно в тех же положительно окрашенных текстах положительная   лексика имеет высокую вероятность употребления при большом  числе их неупотреблений, что означает их профицит.

Такое явное выделение дефицитной и профицитной лексики может представлять интерес для сравнительного анализа текстов или других категориальных последовательностей. Результаты  работы доложены на научной конференции. 
 

Недостаток — можно было бы представить результаты сравнения не только одной пары текстов, для того чтобы бы убедиться в неслучайности данного наблюдения. Несмотря на указанное замечание,  работа получилась очень интересная и ознаменовала собой новый этап в развитии этого научного направления,  оценка отлично, А. 

Доцент кафедры 
статистического моделирования
Алексеева Нина Петровна