Определение авторства текста является одной из фундаментальных проблем обработки естественного языка. Установление автора документа играет важную роль в лингвистических, исторических и криминалистических исследованиях. С развитием Интернета стало доступно огромное число текстов, что сделало практически невозможным ручную классификацию текстов по авторам. Таким образом задача автоматического нахождения авторства является в данный момент исключительно актуальной. В настоящее время существует несколько коммерческих решений для определения автора текста, однако все они обладают теми или иными недостатками, связанными с точностью работы и робастностью используемых ими методов. Современные алгоритмы установления авторства опираются на статистическую обработку и вывод из определённого набора признаков, полученных из текста. Одними из самых популярных являются методы машинного обучения, такие как нейронные сети, метод опорных векторов, скрытые марковские цепи, деревья принятия решений. Для их устойчивой работы необходимы тренировочные данные, объём которых напрямую связан с точностью и устойчивостью работы перечисленных выше алгоритмов. Также немаловажным фактором в практических приложениях является скорость работы метода, так как часто система должна работать в реальном времени. В своей квалификационной работе Полина исследовала применение метода выделения признаков из текста, основанного на оценке распределения частота подряд идущих буквосочетаний (n-грамм). Этот метод хорошо себя проявил в различных задачах обработки текстов на естественном языке, например в задаче определения части речи. Полина в своей работе адаптировала данный подход для определения авторства текста. Также в работе был проведён анализ использования различных методов кластеризации вместе с признаками, полученными с помощью n-грамм. Были рассмотрены такие алгоритмы, как K-Means, Global K-Means, PAM. Анализ их работы оценивался с помощью различных метрик качества кластеризации: Rand Index, NMI, F-Measure, Purity measure. Такой подход позволил получить разностороннюю и взвешенную оценку результатов. Большим преимуществом представленных в работе методов кластеризации является то, что они показали устойчивые результаты в задаче определения авторства текста, а так же, в силу своей простоты, продемонстрировали высокую скорость обработки данных. В данной работе на основе проведённого исследования были сделаны выводы об условиях применимости метода, основанного на распределении частот буквосочетаний, а также его ограничениях в задаче определения автора текста. Полученные результаты могут послужить основой для дальнейших исследований в данной области, а также найти практическое применение в области обработки текстов естественном языке. В рамках квалификационной работы Полиной была представлена программная реализация описанного в работе метода на языке Python с использованием оптимизированных библиотек. Данная система позволяет гибко настраивать архитектуру метода для работы с русским, английским и немецким языками. В результате можно заключить, что выполненная работа заслуживает оценку «отлично».