Study and development of methods for named entity recognition

Крастынь Валерия Валерьевна; Krastyn Valeria

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/7616

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Пивоварова Лидия Михайловна	ru_RU
dc.contributor.author	Крастынь Валерия Валерьевна	ru_RU
dc.contributor.author	Krastyn Valeria	en_GB
dc.contributor.editor	Хохлова Мария Владимировна	ru_RU
dc.contributor.editor	Khokhlova Mariia Vlаdimirovnа	en_GB
dc.date.accessioned	2017-09-29T13:40:59Z	-
dc.date.available	2017-09-29T13:40:59Z	-
dc.date.issued	2017	-
dc.identifier.other	050802	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/7616	-
dc.description.abstract	В работе освещены основные современные методы извлечения именованных сущностей из текстов различной тематики и жанровой принадлежности. Автором проведен обзор существующих систем выделения именованных сущностей и возможностей их адаптации под материал конкретной предметной области. В соответствии с поставленными задачами собран корпус текстов микроблогов на русском языке, проведена разметка трех типов сущностей - персона, организация и локация - и произведена адаптация двух различных инструментов извлечения именованных сущностей для анализа данного корпуса текстов. Работа по адаптации инструментов включала в себя написание грамматик (правил) и словарей-газетиров, настройку и замену модулей систем. В работе также проведено сравнение результатов систем на корпусе микроблогов с результатами, полученными на более традиционном для данной области корпусе новостных текстов. Полученные результаты говорят о целесообразности выбранного подхода и предоставляют возможность дальнейшего совершенствования методов и систем извлечения именованных сущностей, в частности, на собранном в рамках исследования корпусе.	ru_RU
dc.description.abstract	The paper provides a review of main modern methods of named entity recognition. The author studies existing systems in order to identify the possibilities of their adaptation to the material of a particular subject area. In accordance with the tasks set, the corpus of microblogging texts in Russian language was compiled and annotated with three types of entities - person, organization and location. One of the tasks was to adapt two different named entity recognition tools to parse this corpora. Work on the adaptation of the tools included writing context free grammars (rules) and dictionaries-gazetteers, setting up and replacing system modules. The author also compares the results that the two systems have shown on microblog text with the results obtained on the more traditional newswire corpus. The results of the study indicate the expediency of the chosen approach and at the same time provide an opportunity for further improvement of methods and systems for named entity recognition, in particular, using the corpus assembled within the framework of the study.	en_GB
dc.language.iso	ru	-
dc.subject	именованные сущности	ru_RU
dc.subject	извлечение именованных сущностей	ru_RU
dc.subject	named entity recognition	en_GB
dc.subject	rule-based approach	en_GB
dc.title	Study and development of methods for named entity recognition	en_GB
dc.title.alternative	Исследование и разработка методов извлечения именованных сущностей	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Issledovanie_i_razrabotka_metodov_izvlecheniya_imenovannyx_sushhnostej_(1)_(1).docx	Article	927,49 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_Krastyn_otzyv.doc	ReviewSV	33 kB	Microsoft Word	Просмотреть/Открыть
reviewSV_st005025_Xoxlova_Mariya_Vladimirovna_(supervisor)(Ru).txt	ReviewSV	3 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета