В современной психометрике часто ставится задача определения т.н. “уровня способностей” (ability) исследуемого объекта. При этом интересующая величина недоступна для прямого измерения, и все, что можно сделать – это лишь попытаться ее определить косвенными методами. Типичным примером такой задачи является определение уровня владения  студентами иностранными языками. Здесь, способом измерить способность студента является проведение тестирования, и последующее определение требуемого уровня на основе анализа ответов на вопросы теста.

Общепринятым (в своей области) подходом тут является т.н. метод IRT (Item Response Theory), постулирующий модель для вероятности правильного ответа на вопрос в зависимости от уровня способностей испытуемого и от сложного вопроса. Однако, со статистической точки зрения эта модель некорректна, т.к. количество параметров в ней растет с увеличением объема выборки, помимо этого не весь набор параметров в принципе идентифицируем.

Существуют разные способы, позволяющие “обойти” обозначенную выше трудность. Однако все они не лишены определенных недостатков, более того, так или иначе, они все модифицируют исходную модель. Помимо непосредственно задачи оценивания существуют и другие задачи, важные для практического применения, например проблема сравнения “оценок разных лет”, которая возникает из-за того, что вследствие отсутствия идентифицируемости, оценки по разным выборкам оказываются несравнимыми (т.е. фактически можно оценить только “относительный” уровень владения в рамках выборки, но не абсолютный в пределах всей популяции).

Одним из возможных способов решения этой задачи является объединение нескольких тестов в один и их связь за счет общих вопросов. В этом случае задача сводится к исходной, но в условиях неполных данных. При этом до сих пор не известно, какие статистические свойства получаются у оценок: как сильно влияет количество совместных вопросов, как следует строить дизайн эксперимента с целью уменьшения дисперсии и т.п. В целом и общем, решение данной задачи имеет важное прикладное значение.

Перед автором была поставлена задача разобраться в способах оценивания в рамках модели IRT, изучить свойства оценок и, наконец, дать ответ на вопрос о свойствах оценок в условия неполных данных, прояснив влияние дизайна.

К сожалению, автору не хватило времени для того, чтобы решить все поставленные задачи. Так, свойства оценок были исследованы лишь только в некоторых случаях прямым моделированием, и каких либо пригодных для практического применения выводов сделано не было.

В свете всего вышесказанного, считаю, что работа может быть оценена лишь на оценку “удовлетворительно”.