Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/3043
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorМитрофанова Ольга Александровнаru_RU
dc.contributor.authorБукия Григорий Теймуразовичru_RU
dc.contributor.authorBukiia Grigoriien_GB
dc.contributor.editorкандидат филологических наук, доцент О.А. Митрофановаru_RU
dc.contributor.editorCandidate of Philology, Associate Professor O. Mitrofanovaen_GB
dc.date.accessioned2016-08-31T12:39:41Z-
dc.date.available2016-08-31T12:39:41Z-
dc.date.issued2016
dc.identifier.other042537en_GB
dc.identifier.urihttp://hdl.handle.net/11701/3043-
dc.description.abstractДанная работа посвящена автоматической кластеризации документов с присвоением тематических меток. Работа состоит из введения, трех глав, заключения, списка литературы и приложений. Количество информации в интернете увеличивается в геометрической прогрессии. Такой объем данных зачастую не поддается ручной обработке. Возникает задача автоматически упорядочить коллекцию, объединяя в одну группу тематически близкие документы. Стандартные методы кластеризации не позволяют определить тему той или иной группы. Определение темы вручную вызывает ряд проблем. Во-первых, для этого потребуется прочитать несколько документов из каждой группы – это далеко не всегда удобно. Во-вторых, часто автоматическая классификация, учитывающая внутренние свойства документов, не вполне согласуется с классификацией, выполненной человеком. Поэтому в качестве меток для каждого класса удобно использовать ключевые слова или выражения, характерные именно для соответствующего класса. Цель данной работы – решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи: 1) анализ методов и способов оценки качества кластеризации; 2) формулировка лингвистической базы исследования – грамматики конструкций и составление методов оценки степени связи элементов биграммы; 3) описание методов выделения ключевых слов. Предполагается также решение следующих практических задач: 1) кластеризация корпуса новостных документов; 2) составление тематического словаря, состоящего из ключевых слов; 3) расширение тематического словаря биграммными конструкциями; 4) назначение меток к тематическому классу документов. Для решения поставленных задач используются различные методы кластерного анализа и статистики оценки корреляции в таблице сопряжения. Материалом для исследования послужил корпус текстов из новостного портала Ruposters. Данный метод, учитывающий структуру новостных порталов, имеет свои преимущества перед стандартными методами. Простота реализации и широта применения обеспечивают актуальность работы. Практические результаты данной работы частично опубликованы в пяти статьях и в настоящий момент готовятся дополнительные публикации.ru_RU
dc.description.abstractThe master paper deals with automatic document clustering and assigning topic markers to resulting clusters. The amount of data in the Internet grows rapidly and resists manual processing. One of the tasks, therefore, is to cluster a corpus so that similar documents should appear in the same group. The widely used clustering methods may be used to group the data, but the main topic of the group remains unknown. Obviously, manual annotation is difficult and key words or phrases should be extracted instead. The objective of the work is to cluster news feed and assign topic markers to each cluster. Topic markers are interpreted not only as single words but also as bigrams. The association strength within a phrase is also taken into account. The following tasks are solved: 1) the analysis of clustering methods and their quality assessement; 2) the description of linguistic grounds (Construction grammar and association measures); 3) the survey on keyword extraction methods; As for the experimental part, we present the following results: 1) news feed corpus clustering; 2) topic dictionary construction; 3) adding key bigrams to topic dictionary; 4) assigning topic markers to a cluster. The tasks are solved by means of various clustering methods and association strength measures. We use news from the Ruposters site as experimental data. The proposed method takes into account news feed structure and is easy to implement and exploit. The results of the work were partly discussed in several papers on the topic.en_GB
dc.language.isoru
dc.subjectКластерный анализru_RU
dc.subjectтематическое моделированиеru_RU
dc.subjectвыделение ключевых словru_RU
dc.subjectграмматика конструкцийru_RU
dc.subjectCluster analysisen_GB
dc.subjectTopic modelingen_GB
dc.subjectKeyword extractionen_GB
dc.subjectConstruction grammaren_GB
dc.titleClusterisation of verbal expressions in a text corpus using the stochastic ranking methoden_GB
dc.title.alternativeКластеризация языковых выражений в корпусе текстов на основе стохастического ранжированияru_RU
Располагается в коллекциях:MASTER'S STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.