Topic modelling of Russian texts based on lemmata and lexical constructions

Седова Анастасия Георгиевна; Sedova Anastasiia

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/8184

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Азарова Ирина Владимировна	ru_RU
dc.contributor.author	Седова Анастасия Георгиевна	ru_RU
dc.contributor.author	Sedova Anastasiia	en_GB
dc.contributor.editor	Митрофанова Ольга Александровна	ru_RU
dc.contributor.editor	Mitrofanova Olga Аleksаndrovnа	en_GB
dc.date.accessioned	2017-09-29T14:13:42Z	-
dc.date.available	2017-09-29T14:13:42Z	-
dc.date.issued	2017
dc.identifier.other	032711	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/8184	-
dc.description.abstract	Данная работа посвящена усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В практической части данного исследования описана работа алгоритма и приведены результаты его применения в автоматической обработке двух корпусов русского языка: корпуса текстов по радиоэлектронике, ракетостроению и технике и корпуса текстов на лингвистическую тематику.	ru_RU
dc.description.abstract	The graduation qualification paper is devoted to the improvement of topic modelling algorithms aimed at extraction of latent relations between words, documents and topics in processed corpora. In the majority of cases topics generated by topic models contain only unigrams, so that the interpretation of extracted topics turns out to be a complicated task. This paper presents a new algorithm based on the classic LDA model which provides automatic extraction of bigrams in the given text collection and further incorporation of bigrams into the topic model. In the second part of paper at hand we describe our algorithm in action and discuss results achieved in course of processing the Russian corpora on radioengineering and linguistics.	en_GB
dc.language.iso	ru
dc.subject	тематическое моделирование	ru_RU
dc.subject	LDA	ru_RU
dc.subject	биграммы	ru_RU
dc.subject	topic modelling	en_GB
dc.subject	LDA	en_GB
dc.subject	bigrams	en_GB
dc.title	Topic modelling of Russian texts based on lemmata and lexical constructions	en_GB
dc.title.alternative	Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
DIPLOM_FINAL.pdf	Article	1,69 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_Sedova.pdf	ReviewSV	202,16 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_Sedova_A_G__bak_otz.pdf	ReviewSV	202,16 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_st005608_Mitrofanova_Olga_Aleksandrovna_(supervisor)(Ru).txt	ReviewSV	2,1 kB	Text	Просмотреть/Открыть
reviewSV_st005137_Azarova_Irina_Vladimirovna_(reviewer)(Ru).txt	ReviewRev	5,22 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета