Multimodal topic modelling of multilingual corpora of socio-political texts

Петрицкая Ева Олеговна; Petrickaa Eva Olegovna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/40027

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Москвина Анна Денисовна	ru_RU
dc.contributor.advisor	Moskvina Anna Denisovna	en_GB
dc.contributor.author	Петрицкая Ева Олеговна	ru_RU
dc.contributor.author	Petrickaa Eva Olegovna	en_GB
dc.contributor.editor	Митрофанова Ольга Александровна	ru_RU
dc.contributor.editor	Mitrofanova Olga Aleksandrovna	en_GB
dc.date.accessioned	2023-04-06T21:49:29Z	-
dc.date.available	2023-04-06T21:49:29Z	-
dc.date.issued	2022
dc.identifier.other	068019	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/40027	-
dc.description.abstract	В работе рассматриваются алгоритмы построения мультимодальных тематических моделей и варианты их обучения на многоязычном корпусе текстов. В процессе создания моделей тестируются разные способы лингвистической обработки корпусов текстов и алгоритмы выделения ключевых выражений, реализуемые с помощью библиотек и инструментов RAKE, scikit-learn, Natasha, NLTK и pymorphy2. Производится интеграция алгоритмов выделения ключевых выражений в тематические модели с целью выбора наиболее подходящего способа построения репрезентативных и качественных моделей коллекции документов. Полученные результаты проходят многоаспектную количественную и качественную оценку. Исследование проводится на параллельном корпусе текстов Организации Объединенных Наций (United Nations Parallel Corpus), находящимся в открытом доступе. Результаты работы могут быть применены в задачах обработки текстов на естественных языках, возникших в ответ на растущую потребность анализа документов, а также в дальнейших исследованиях процессов тематического моделирования.	ru_RU
dc.description.abstract	The paper considers algorithms for constructing multimodal topic models and options for their training on a multilingual corpus of texts. In the process of creating models, various methods of linguistic processing of text corpora and algorithms for highlighting key expressions are tested, using such libraries and toolkits as RAKE, scikit-learn, Natasha, NLTK, and pymorphy2. Key expression selection algorithms are integrated into topic models in order to select the most appropriate way to create representative and qualitative models of a collection of documents. The obtained results undergo a multidimensional quantitative and qualitative assessment. The experiment is conducted on United Nations Parallel Corpus which is available in the public domain. The results of the work can be applied in the tasks of natural language processing that have arisen in response to the growing need for document analysis, as well as in further studies of topic modeling processes.	en_GB
dc.language.iso	ru
dc.subject	тематическое моделирование	ru_RU
dc.subject	коллекция документов	ru_RU
dc.subject	корпус текстов	ru_RU
dc.subject	многоязычный корпус	ru_RU
dc.subject	ключевые выражения	ru_RU
dc.subject	topic modelling	en_GB
dc.subject	collection of texts	en_GB
dc.subject	text dataset	en_GB
dc.subject	multilingual corpus	en_GB
dc.subject	key phrases.	en_GB
dc.title	Multimodal topic modelling of multilingual corpora of socio-political texts	en_GB
dc.title.alternative	Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
VKR_Petrickaa.pdf	Article	1,49 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Petritskaya_otzyv.pdf	ReviewSV	123,85 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_st068019_Petrickaa_Eva_Olegovna_(supervisor)(Ru).txt	ReviewSV	4,85 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета