Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/40027
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Москвина Анна Денисовна | ru_RU |
dc.contributor.advisor | Moskvina Anna Denisovna | en_GB |
dc.contributor.author | Петрицкая Ева Олеговна | ru_RU |
dc.contributor.author | Petrickaa Eva Olegovna | en_GB |
dc.contributor.editor | Митрофанова Ольга Александровна | ru_RU |
dc.contributor.editor | Mitrofanova Olga Aleksandrovna | en_GB |
dc.date.accessioned | 2023-04-06T21:49:29Z | - |
dc.date.available | 2023-04-06T21:49:29Z | - |
dc.date.issued | 2022 | |
dc.identifier.other | 068019 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/40027 | - |
dc.description.abstract | В работе рассматриваются алгоритмы построения мультимодальных тематических моделей и варианты их обучения на многоязычном корпусе текстов. В процессе создания моделей тестируются разные способы лингвистической обработки корпусов текстов и алгоритмы выделения ключевых выражений, реализуемые с помощью библиотек и инструментов RAKE, scikit-learn, Natasha, NLTK и pymorphy2. Производится интеграция алгоритмов выделения ключевых выражений в тематические модели с целью выбора наиболее подходящего способа построения репрезентативных и качественных моделей коллекции документов. Полученные результаты проходят многоаспектную количественную и качественную оценку. Исследование проводится на параллельном корпусе текстов Организации Объединенных Наций (United Nations Parallel Corpus), находящимся в открытом доступе. Результаты работы могут быть применены в задачах обработки текстов на естественных языках, возникших в ответ на растущую потребность анализа документов, а также в дальнейших исследованиях процессов тематического моделирования. | ru_RU |
dc.description.abstract | The paper considers algorithms for constructing multimodal topic models and options for their training on a multilingual corpus of texts. In the process of creating models, various methods of linguistic processing of text corpora and algorithms for highlighting key expressions are tested, using such libraries and toolkits as RAKE, scikit-learn, Natasha, NLTK, and pymorphy2. Key expression selection algorithms are integrated into topic models in order to select the most appropriate way to create representative and qualitative models of a collection of documents. The obtained results undergo a multidimensional quantitative and qualitative assessment. The experiment is conducted on United Nations Parallel Corpus which is available in the public domain. The results of the work can be applied in the tasks of natural language processing that have arisen in response to the growing need for document analysis, as well as in further studies of topic modeling processes. | en_GB |
dc.language.iso | ru | |
dc.subject | тематическое моделирование | ru_RU |
dc.subject | коллекция документов | ru_RU |
dc.subject | корпус текстов | ru_RU |
dc.subject | многоязычный корпус | ru_RU |
dc.subject | ключевые выражения | ru_RU |
dc.subject | topic modelling | en_GB |
dc.subject | collection of texts | en_GB |
dc.subject | text dataset | en_GB |
dc.subject | multilingual corpus | en_GB |
dc.subject | key phrases. | en_GB |
dc.title | Multimodal topic modelling of multilingual corpora of socio-political texts | en_GB |
dc.title.alternative | Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
VKR_Petrickaa.pdf | Article | 1,49 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Petritskaya_otzyv.pdf | ReviewSV | 123,85 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st068019_Petrickaa_Eva_Olegovna_(supervisor)(Ru).txt | ReviewSV | 4,85 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.