В работе Коврыги В.В. рассматривается важная практическая задача оценивания сложности вопросов и уровня испытуемых по результатам теста. Бакалаврская диссертация Коврыги В.В. представляет собой естественное продолжение курсовой работы на схожую тему. В работе рассматриваются некоторые из возможных решений задачи оценивания способностей индивидов и сложностей вопросов, проблемы, возникающие по ходу решения данной задачи, способы их устранения, а также некоторые естественные усложнения этой задачи. В первой части рассматривается классическая модель Rasch model, по сути представляющая собой обычную оценку максимума правдоподобия. В этом случае оцениваемыми параметрами будут сложности вопросов и способности индивидов. Хорошо известно, что оценки МП для этой задачи не являются состоятельными при увеличении объёма выборки, так как с ростом объёма выборки растёт и число неизвестных параметров. Для решения этой проблемы предлагается рассмотреть модель Conditional Maximum Likelihood, в которой способности индивидов рассматриваются как мешающие параметры, а сложность вопросов оценивается с помощью максимума функции условного правдоподобия. При большом числе вопросов вычисление функционала условного правдоподобия неэффективно, так как формула содержит комбинаторное число слагаемых. Однако, функционал может быть вычислен динамическим программированием с помощью известных рекуррентных соотношений. Во второй части известные теоретические свойства CML оценок проверяются с помощью моделирования. В третьей части работы проводится анализ естественного расширения задачи оценивания на случай неполного дизайна. На практике этот случай соответствует тому, что разные группы испытуемых выполняют разные тесты, но имеющие некоторый набор общих вопросов. Такая схема имеет смысл, если мы хотим иметь возможность сравнивать результаты тестирования разных людей на разных наборах тестов между собой --- пересечение по вопросам и людям позволяет выровнять шкалы. В работе исследуется поведение построенных оценок при изменяющемся числе общих вопросов, числе вопросов теста и увеличивающемся объёме выборки. Определенным достоинством работы является в целом убедительное моделирование, подтверждающее теоретические выводы о свойствах оценок и корректность реализации. Особенно интересен случай неполного дизайна, где проводится моделирование для разных параметров. К сожалению, нельзя не упомянуть и о существенных недостатках работы. Основные вопросы вызывает новизна исследования. Автор не предлагает никаких новых методов, только реализует классические (статьи 1995, 1993 и 1972 года), и не формулирует новых задач. Прикладную ценность реализаций невозможно оценить, в связи с тем, что реализации никак не описаны и не делается никакой попытки сравнения с существующими решениями. Ценность результатов, полученных с помощью моделирования, также довольно трудно оценить, так как из текста работы неясно, получены ли какие-то новые результаты или повторены результаты из оригинальных статей. Анализ полученных результатов достаточно бедный и в основном сводится к заключению, что исследуемые методы дают состоятельные оценки со стандартным порядком сходимости. Не сделано никаких практических выводов, например, о необходимом и достаточном количестве испытуемых и числе общих вопросов для случая неполного дизайна Учитывая все недостатки выше, невозможно оценить работу более чем на «четыре с минусом».