Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/40027
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorМосквина Анна Денисовнаru_RU
dc.contributor.advisorMoskvina Anna Denisovnaen_GB
dc.contributor.authorПетрицкая Ева Олеговнаru_RU
dc.contributor.authorPetrickaa Eva Olegovnaen_GB
dc.contributor.editorМитрофанова Ольга Александровнаru_RU
dc.contributor.editorMitrofanova Olga Aleksandrovnaen_GB
dc.date.accessioned2023-04-06T21:49:29Z-
dc.date.available2023-04-06T21:49:29Z-
dc.date.issued2022
dc.identifier.other068019en_GB
dc.identifier.urihttp://hdl.handle.net/11701/40027-
dc.description.abstractВ работе рассматриваются алгоритмы построения мультимодальных тематических моделей и варианты их обучения на многоязычном корпусе текстов. В процессе создания моделей тестируются разные способы лингвистической обработки корпусов текстов и алгоритмы выделения ключевых выражений, реализуемые с помощью библиотек и инструментов RAKE, scikit-learn, Natasha, NLTK и pymorphy2. Производится интеграция алгоритмов выделения ключевых выражений в тематические модели с целью выбора наиболее подходящего способа построения репрезентативных и качественных моделей коллекции документов. Полученные результаты проходят многоаспектную количественную и качественную оценку. Исследование проводится на параллельном корпусе текстов Организации Объединенных Наций (United Nations Parallel Corpus), находящимся в открытом доступе. Результаты работы могут быть применены в задачах обработки текстов на естественных языках, возникших в ответ на растущую потребность анализа документов, а также в дальнейших исследованиях процессов тематического моделирования.ru_RU
dc.description.abstractThe paper considers algorithms for constructing multimodal topic models and options for their training on a multilingual corpus of texts. In the process of creating models, various methods of linguistic processing of text corpora and algorithms for highlighting key expressions are tested, using such libraries and toolkits as RAKE, scikit-learn, Natasha, NLTK, and pymorphy2. Key expression selection algorithms are integrated into topic models in order to select the most appropriate way to create representative and qualitative models of a collection of documents. The obtained results undergo a multidimensional quantitative and qualitative assessment. The experiment is conducted on United Nations Parallel Corpus which is available in the public domain. The results of the work can be applied in the tasks of natural language processing that have arisen in response to the growing need for document analysis, as well as in further studies of topic modeling processes.en_GB
dc.language.isoru
dc.subjectтематическое моделированиеru_RU
dc.subjectколлекция документовru_RU
dc.subjectкорпус текстовru_RU
dc.subjectмногоязычный корпусru_RU
dc.subjectключевые выраженияru_RU
dc.subjecttopic modellingen_GB
dc.subjectcollection of textsen_GB
dc.subjecttext dataseten_GB
dc.subjectmultilingual corpusen_GB
dc.subjectkey phrases.en_GB
dc.titleMultimodal topic modelling of multilingual corpora of socio-political textsen_GB
dc.title.alternativeМультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстовru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
VKR_Petrickaa.pdfArticle1,49 MBAdobe PDFПросмотреть/Открыть
reviewSV_Petritskaya_otzyv.pdfReviewSV123,85 kBAdobe PDFПросмотреть/Открыть
reviewSV_st068019_Petrickaa_Eva_Olegovna_(supervisor)(Ru).txtReviewSV4,85 kBTextПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.