Отзыв на выпускную квалификационную работу бакалавра Шилова Ильи Михайловича "Автоматическое выявление и расшифровка аббревиатур и сокращений в тексте" Данная задача возникла из практических потребностей, возникающих при анализе текстов подготовленных в государственных учреждениях. Здесь использование разнообразных типов сокращений особенно популярно и их расшифровка может существенно повысить качество анализа текстов. Для выполнения данной работы Илье была передана коллекция документов, содержащая законодательные акты правительств России, Москвы и Петербурга. Изначально все документы были представлены в XML формате. Однако файлы, которые получил Александр, уже были очищены от XML разметки. Исходный план работы можно охарактеризовать следующим образом. Первоначально необходимо было найти слова, которые могут быть сокращениями. Тут могут использоваться и такие признаки как наличие знаков '-', '.' и заглавных букв. А также следует использовать гипотезу о том, что сокращения встречаются в 'узком' контексте. Иными словами, в окрестности одного и того же сокращения с большой частотой встречаются слова из одной относительно небольшой группы слов. Далее для выявленных сокращений можно искать их расшифровки, предполагая, что в имеющейся коллекции документов могут встречаться как сокращения, так и их полные формы, и что и те и другие должны встречаться в одном и том же контексте. В начальной части своей работе Илья описал возможные типы сокращений, детально проанализировал идею о возможности выделения сокращений на основе поиска контекста. В обзоре литературы? к сожалению? приведена только одна работа посвященная аббревиатурам. Однако при поиске в Google по запросу 'acronym extraction' можно найти множество статей по указанной теме. Далее описывается подготовка данных - чтение данных, построение словаря коллекции, подсчет частот встречаемости слов, построение матрицы соседства слов. Однако никакие статистические данные о размере коллекции с точки зрения числа документов и их размеров не приводятся. Возможно эти данные автор и не получил на начальном этапе свой работы, так как в разделе 7.2 указано, что корпус документов состоит из 100 документов длиной от 2950852 до 33288921 символов. Это конечно ошибка, связанная с неверной интерпретацией данных или с сбоем программы удаления XML разметки. Однако, на мой взгляд, несуразно большие размеры документов должны были насторожить автора и заставить его взглянуть на исходные данные более внимательно. В результате же сделанной ошибки результаты, полученные при обработке данных методом LDA, нельзя рассматривать как надежные. Значительная часть работы посвящена описанию и сравнению методов wold2vec, Latent Dirichlet Allocation (LDA) и lda2vec, которые используются в данной работе. Однако, к сожалению, изложению собственных результатов уделено значительно меньше внимания - всего 5 страниц, не считая выводов. Отмечается, что были обучены модели LDA, word2vec и lda2vec. Из схемы, приведенной на стр. 25, следует, что базируясь на построенных моделях был построен список близких слов, однако никакие данные об этом списке не приводятся. Хотя было бы интересно получить данные о числе групп близких слов, о размерах этих групп, хотелось бы увидеть и примеры. Важным результатом является утверждение о том, что гипотеза о возможности выделения сокращений на основе анализа 'узости' их контекста не подтвердилась. Опять же было бы очень полезно привести соответствующее доказательство, например, процент сокращений, энтропия контекста которых мала и т.п. Например, можно было бы посмотреть случай слов с символом '.'. С одной стороны это может быть сокращение типа Prof., с другой стороны точка может отмечать конец предложения. Можно ли использовать информацию об энтропии контекста для дифференциации этих двух случаев? Двум алгоритмам поиска полной формы сокращения посвящены всего 4 строки на двоих. Этого конечно недостаточно. Интересно замечание о результатах применения word2vec и LDA в попытке найти полную форму сокращения. Оказывается, так можно найти не полную форму сокращения, а скорее описание области, к которой данное сокращение относится. Однако в силу вышеупомянутой ошибки при обработке или интерпретации данных, доверять результатам применения LDA и lda2vec нельзя. В целом можно сделать следующий вывод. Автор, судя по всему, по сути опроверг гипотезу, представленную ему для исследования - о возможности выделения сокращений и их полных форм на основе анализа контекста. Однако детальные доказательства этого утверждения не приведены. Считаю, что работа Шилова Ильи Михайловича "Автоматическое выявление и расшифровка аббревиатур и сокращений в тексте" может быть оценена на "хорошо". Научный руководитель, доцент Добрынин В. Ю.