Clusterisation of verbal expressions in a text corpus using the stochastic ranking method

Букия Григорий Теймуразович; Bukiia Grigorii

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/3043

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Митрофанова Ольга Александровна	ru_RU
dc.contributor.author	Букия Григорий Теймуразович	ru_RU
dc.contributor.author	Bukiia Grigorii	en_GB
dc.contributor.editor	кандидат филологических наук, доцент О.А. Митрофанова	ru_RU
dc.contributor.editor	Candidate of Philology, Associate Professor O. Mitrofanova	en_GB
dc.date.accessioned	2016-08-31T12:39:41Z	-
dc.date.available	2016-08-31T12:39:41Z	-
dc.date.issued	2016
dc.identifier.other	042537	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/3043	-
dc.description.abstract	Данная работа посвящена автоматической кластеризации документов с присвоением тематических меток. Работа состоит из введения, трех глав, заключения, списка литературы и приложений. Количество информации в интернете увеличивается в геометрической прогрессии. Такой объем данных зачастую не поддается ручной обработке. Возникает задача автоматически упорядочить коллекцию, объединяя в одну группу тематически близкие документы. Стандартные методы кластеризации не позволяют определить тему той или иной группы. Определение темы вручную вызывает ряд проблем. Во-первых, для этого потребуется прочитать несколько документов из каждой группы – это далеко не всегда удобно. Во-вторых, часто автоматическая классификация, учитывающая внутренние свойства документов, не вполне согласуется с классификацией, выполненной человеком. Поэтому в качестве меток для каждого класса удобно использовать ключевые слова или выражения, характерные именно для соответствующего класса. Цель данной работы – решение задачи автоматической кластеризации новостных документов и расстановка списка тематических меток для каждого класса. В качестве тематических меток выделяются не только ключевые слова, но и биграммные конструкции, при этом учитывается степень связи элементов каждой биграммы. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи: 1) анализ методов и способов оценки качества кластеризации; 2) формулировка лингвистической базы исследования – грамматики конструкций и составление методов оценки степени связи элементов биграммы; 3) описание методов выделения ключевых слов. Предполагается также решение следующих практических задач: 1) кластеризация корпуса новостных документов; 2) составление тематического словаря, состоящего из ключевых слов; 3) расширение тематического словаря биграммными конструкциями; 4) назначение меток к тематическому классу документов. Для решения поставленных задач используются различные методы кластерного анализа и статистики оценки корреляции в таблице сопряжения. Материалом для исследования послужил корпус текстов из новостного портала Ruposters. Данный метод, учитывающий структуру новостных порталов, имеет свои преимущества перед стандартными методами. Простота реализации и широта применения обеспечивают актуальность работы. Практические результаты данной работы частично опубликованы в пяти статьях и в настоящий момент готовятся дополнительные публикации.	ru_RU
dc.description.abstract	The master paper deals with automatic document clustering and assigning topic markers to resulting clusters. The amount of data in the Internet grows rapidly and resists manual processing. One of the tasks, therefore, is to cluster a corpus so that similar documents should appear in the same group. The widely used clustering methods may be used to group the data, but the main topic of the group remains unknown. Obviously, manual annotation is difficult and key words or phrases should be extracted instead. The objective of the work is to cluster news feed and assign topic markers to each cluster. Topic markers are interpreted not only as single words but also as bigrams. The association strength within a phrase is also taken into account. The following tasks are solved: 1) the analysis of clustering methods and their quality assessement; 2) the description of linguistic grounds (Construction grammar and association measures); 3) the survey on keyword extraction methods; As for the experimental part, we present the following results: 1) news feed corpus clustering; 2) topic dictionary construction; 3) adding key bigrams to topic dictionary; 4) assigning topic markers to a cluster. The tasks are solved by means of various clustering methods and association strength measures. We use news from the Ruposters site as experimental data. The proposed method takes into account news feed structure and is easy to implement and exploit. The results of the work were partly discussed in several papers on the topic.	en_GB
dc.language.iso	ru
dc.subject	Кластерный анализ	ru_RU
dc.subject	тематическое моделирование	ru_RU
dc.subject	выделение ключевых слов	ru_RU
dc.subject	грамматика конструкций	ru_RU
dc.subject	Cluster analysis	en_GB
dc.subject	Topic modeling	en_GB
dc.subject	Keyword extraction	en_GB
dc.subject	Construction grammar	en_GB
dc.title	Clusterisation of verbal expressions in a text corpus using the stochastic ranking method	en_GB
dc.title.alternative	Кластеризация языковых выражений в корпусе текстов на основе стохастического ранжирования	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Diplomvsyo.docx	Article	629,12 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_Otzyv_Bukiya.doc	ReviewSV	41,5 kB	Microsoft Word	Просмотреть/Открыть
reviewSV_st005608_Mitrofanova_Olga_Aleksandrovna_(supervisor)(Ru).txt	ReviewSV	9,96 kB	Text	Просмотреть/Открыть
reviewSV_Recenziya_Bukiya.doc	ReviewRev	37 kB	Microsoft Word	Просмотреть/Открыть
reviewSV_st005608_Mitrofanova_Olga_Aleksandrovna_(reviewer)(Ru).txt	ReviewRev	8,82 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета