Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/8184
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Азарова Ирина Владимировна | ru_RU |
dc.contributor.author | Седова Анастасия Георгиевна | ru_RU |
dc.contributor.author | Sedova Anastasiia | en_GB |
dc.contributor.editor | Митрофанова Ольга Александровна | ru_RU |
dc.contributor.editor | Mitrofanova Olga Аleksаndrovnа | en_GB |
dc.date.accessioned | 2017-09-29T14:13:42Z | - |
dc.date.available | 2017-09-29T14:13:42Z | - |
dc.date.issued | 2017 | |
dc.identifier.other | 032711 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/8184 | - |
dc.description.abstract | Данная работа посвящена усовершенствованию методов вероятностного тематического моделирования, направленных на выявление скрытых взаимосвязей между словами, документами и темами в текстовых коллекциях. В большинстве тематических моделей темы представлены исключительно униграммами, что в некоторых случаях влечет за собой ухудшение точности и повышает сложность содержательной интерпретации выделяемых тем. Нами предложен новый алгоритм на основе метода LDA, позволяющий автоматически выделять в корпусе словосочетания, состоящие из двух слов, и добавлять их в тематические модели. В практической части данного исследования описана работа алгоритма и приведены результаты его применения в автоматической обработке двух корпусов русского языка: корпуса текстов по радиоэлектронике, ракетостроению и технике и корпуса текстов на лингвистическую тематику. | ru_RU |
dc.description.abstract | The graduation qualification paper is devoted to the improvement of topic modelling algorithms aimed at extraction of latent relations between words, documents and topics in processed corpora. In the majority of cases topics generated by topic models contain only unigrams, so that the interpretation of extracted topics turns out to be a complicated task. This paper presents a new algorithm based on the classic LDA model which provides automatic extraction of bigrams in the given text collection and further incorporation of bigrams into the topic model. In the second part of paper at hand we describe our algorithm in action and discuss results achieved in course of processing the Russian corpora on radioengineering and linguistics. | en_GB |
dc.language.iso | ru | |
dc.subject | тематическое моделирование | ru_RU |
dc.subject | LDA | ru_RU |
dc.subject | биграммы | ru_RU |
dc.subject | topic modelling | en_GB |
dc.subject | LDA | en_GB |
dc.subject | bigrams | en_GB |
dc.title | Topic modelling of Russian texts based on lemmata and lexical constructions | en_GB |
dc.title.alternative | Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
DIPLOM_FINAL.pdf | Article | 1,69 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Otzyv_Sedova.pdf | ReviewSV | 202,16 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Sedova_A_G__bak_otz.pdf | ReviewSV | 202,16 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st005608_Mitrofanova_Olga_Aleksandrovna_(supervisor)(Ru).txt | ReviewSV | 2,1 kB | Text | Просмотреть/Открыть |
reviewSV_st005137_Azarova_Irina_Vladimirovna_(reviewer)(Ru).txt | ReviewRev | 5,22 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.