Отзыв научного руководителя на бакалаврскую работу студента Самарина Игоря на тему: «Модель отрицательно биномиального распределения в анализе категориальных последовательностей» Данная работа представляет собой продолжение ряда предыдущих выпускных работ по этой тематике, где неоднократно было показано, что в литературных текстах можно выделить довольно большую совокупность слов, удовлетворяющих отрицательному биномиальному распределению. Гипотетически тексты должны как-то отличаться по структуре этих параметров, однако этот вопрос оказался непростым, поскольку было непонятно, от чего зависят эти параметры кроме принадлежности определенной части речи или отношению к именам собственным или нарицательным. Поэтому было решено выяснить, отличаются ли параметры этого распределения в текстах с различной эмоциональной окраской. Первоначально был изучен вопрос классификации текстов с разным тонированием при помощи переходных матриц, и был реализован алгоритм классификации с обучающими выборками в виде положительных и отрицательных отзывов к фильмам. В этой части студентом была проявлена большая самостоятельность, изучены и применены необходимые алгоритмы, приведены примеры классификации текстов. Затем для двух сопоставимых по размеру текстам с разным тонированием было осуществлено одинаковое разбиение на главы, получены эмпирические распределения встречаемости слов, по методу максимального правдоподобия оценены параметры отрицательного биномиального распределения и проверена значимость отклонения от указанного закона распределения. В основу интерпретации параметров положено применение модели отрицательного биномиального распределения к распределению личинок подкожного овода. По соотношению параметров распределения выживших личинок можно было определить размер инвазии, то есть если вероятность гибели личинки была высока, а число погибших личинок невелико, то это говорило о невысокой степени заражения. Аналогично этому в положительно окрашенных текстах отрицательная лексика имеет невысокую вероятность употребления при небольшом числе их неупотреблений, что означает их дефицит. Соответственно в тех же положительно окрашенных текстах положительная лексика имеет высокую вероятность употребления при большом числе их неупотреблений, что означает их профицит. Такое явное выделение дефицитной и профицитной лексики может представлять интерес для сравнительного анализа текстов или других категориальных последовательностей. Результаты работы доложены на научной конференции. Недостаток — можно было бы представить результаты сравнения не только одной пары текстов, для того чтобы бы убедиться в неслучайности данного наблюдения. Несмотря на указанное замечание, работа получилась очень интересная и ознаменовала собой новый этап в развитии этого научного направления, оценка отлично, А. Доцент кафедры статистического моделирования Алексеева Нина Петровна