Рецензия выпускной квалификационной работы бакалавра Шилова Ильи Михайловича «Автоматическое выявление и расшифровка аббревиатур и сокращений в тексте» Работа Шилова И.М. посвящена проблеме анализа текстовой информации, содержащейся в большом количестве документов. Для корректного анализа текстов встает актуальная задача корректного раскрытия используемых в документах сокращений и аббревиатур. В работе рассматриваются методы нахождения сокращений с помощью выделения их орфографических и семантических особенностей. Орфографические особенности выделяются с помощью регулярных выражений, построенных на базе, приведенной в работе классификации сокращений. Семантические особенности ищутся с помощью построенных частотных векторов соседей слов в тексте. Собственно сокращения находятся при помощи осуществления предсказания появления слов в тексте. В качестве численной меры информации, содержащейся в частотных векторах соседей слова, в работе используется информационная энтропия. Автором рассматриваются основные на сегодняшний день методы предсказания появления слов в тексте такие как «Word2vec», «LDA» и гибридный метод «LDA2VEC». В работе достаточно подробно описываются принципы и алгоритмы работы первых двух методов. Описывается также процедура применения указанных методов для поиска сокращений. Автором разработано программное обеспечение на языке Python с с использованием популярных программных пакетов для анализа текстов, построения информационных моделей, приведения слов к начальной форме, составления словарей, а также пакета реализующего метод LDA2VEC. Эта обеспечение использовалось для обработки корпуса из 100 русскоязычных документов с целью выявления в них сокращений и подбора возможных полных форм сокращений. Результаты обработки показали, что подобный подход позволяет произвести предварительную фильтрацию текста. В результате такой фильтрации выявляются все сокращения, но остается достаточно большой шум из слов не являющимися сокращениями. При этом раскрытие сокращений с помощью построенных моделей показывает не столько полную их форму, сколько контекст использования. Скорее всего, это обусловлено содержанием анализируемого корпуса документов. К недостаткам работы следует отнести: 1. Обработка производилась только на одном корпусе документов. Было бы интересно видеть сравнение результатов обработки для других корпусов документов. Желательно также сравнить их с результатами, полученными на аналогичных системах. 2. Отсутствие в тексте интерпретации содержания рисунка приведенного в приложении Считаю, что квалификационная работа Шилова И.М. заслуживает оценки «Отлично» Рецензент доцент кафедры КММС факультета ПМ-ПУ В.М. Гришкин к.т.н.