Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/8184
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorАзарова Ирина Владимировнаru_RU
dc.contributor.authorСедова Анастасия Георгиевнаru_RU
dc.contributor.authorSedova Anastasiiaen_GB
dc.contributor.editorМитрофанова Ольга Александровнаru_RU
dc.contributor.editorMitrofanova Olga Аleksаndrovnаen_GB
dc.date.accessioned2017-09-29T14:13:42Z-
dc.date.available2017-09-29T14:13:42Z-
dc.date.issued2017
dc.identifier.other032711en_GB
dc.identifier.urihttp://hdl.handle.net/11701/8184-
dc.description.abstractДанная работа посвящена усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В практической части данного исследования описана работа алгоритма и приведены результаты его применения в автоматической обработке двух корпусов русского языка: корпуса текстов по радиоэлектронике, ракетостроению и технике и корпуса текстов на лингвистическую тематику.ru_RU
dc.description.abstractThe graduation qualification paper is devoted to the improvement of topic modelling algorithms aimed at extraction of latent relations between words, documents and topics in processed corpora. In the majority of cases topics generated by topic models contain only unigrams, so that the interpretation of extracted topics turns out to be a complicated task. This paper presents a new algorithm based on the classic LDA model which provides automatic extraction of bigrams in the given text collection and further incorporation of bigrams into the topic model. In the second part of paper at hand we describe our algorithm in action and discuss results achieved in course of processing the Russian corpora on radioengineering and linguistics.en_GB
dc.language.isoru
dc.subjectтематическое моделированиеru_RU
dc.subjectLDAru_RU
dc.subjectбиграммыru_RU
dc.subjecttopic modellingen_GB
dc.subjectLDAen_GB
dc.subjectbigramsen_GB
dc.titleTopic modelling of Russian texts based on lemmata and lexical constructionsen_GB
dc.title.alternativeТематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкцииru_RU
Располагается в коллекциях:BACHELOR STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.