Representation of syntactic relations in the NLTK4RUSSIAN linguistic processor

Москвина Анна Денисовна; Moskvina Anna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/7330

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Шиморина Анастасия Сергеевна	ru_RU
dc.contributor.author	Москвина Анна Денисовна	ru_RU
dc.contributor.author	Moskvina Anna	en_GB
dc.contributor.editor	Митрофанова Ольга Александровна	ru_RU
dc.contributor.editor	Mitrofanova Olga Аleksаndrovnа	en_GB
dc.date.accessioned	2017-09-29T13:17:09Z	-
dc.date.available	2017-09-29T13:17:09Z	-
dc.date.issued	2017	-
dc.identifier.other	017154	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/7330	-
dc.description.abstract	Целью работы является создание синтаксического анализатора для русского языка с использованием инструментов NLTK на Python и изучение его возможностей. Исследование проводилось в рамках проекта NLTK4RUSSIAN, нацеленного на адаптацию инструментов автоматической обработки текста в платформе NLTK для работы с русским языком. В NLTK есть возможность создавать собственные категориальные грамматики, основывающиеся на морфологической информации о входном тексте. Мы разработали такую грамматику для русского языка и исследовали возможности парсера, работающего на её основе. При написании правил грамматики мы опираемся на систему морфологической разметки, принятую в морфоанализаторе PyMorphy2. Была проведена оценка работы парсера на корпусе тестовых предложения, показавшая достаточно высокие результаты, а также описано применение парсера в прикладных задачах по извлечению ключевых слов.	ru_RU
dc.description.abstract	The study is aimed at the development of the syntactic parser for Russian based on NLTK toolkit for Python. The work was conducted as a part of the research for the NLTK4RUSSIAN project, which is concerned with adjusting tools provided by NLTK for the analysis of Russian language. NLTK provides linguistic environment for building formal grammars. We developed and described a feature-based grammar which allows to analyze the most important syntactic groups within clauses occurring in Russian texts. Our parser operates with rules which include morphological information from the input sentences. The rules are based on the tagset accepted in PyMorphy2 morphological tagger. We also observed the possibilities of such parser and made the evaluation of its efficiency based on the corpus of test sentences. Finally, we suggested the idea of the application of such parser in the task of key words extraction.	en_GB
dc.language.iso	ru	-
dc.subject	автоматическая обработка текстов	ru_RU
dc.subject	синтаксический анализатор	ru_RU
dc.subject	русский язык	ru_RU
dc.subject	NLTK	ru_RU
dc.subject	Natural Language Processing	en_GB
dc.subject	Syntactic Analysis	en_GB
dc.subject	Russian	en_GB
dc.subject	NLTK	en_GB
dc.title	Representation of syntactic relations in the NLTK4RUSSIAN linguistic processor	en_GB
dc.title.alternative	Представление синтаксических связей в лингвистическом процессоре NLTK4RUSSIAN	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
final2.pdf	Article	1,2 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_Moskvina.pdf	ReviewSV	198,97 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_Moskvina_A_D__mag_otz.pdf	ReviewSV	198,97 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_st005608_Mitrofanova_Olga_Aleksandrovna_(supervisor)(Ru).txt	ReviewSV	2,99 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета