Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/7616
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorПивоварова Лидия Михайловнаru_RU
dc.contributor.authorКрастынь Валерия Валерьевнаru_RU
dc.contributor.authorKrastyn Valeriaen_GB
dc.contributor.editorХохлова Мария Владимировнаru_RU
dc.contributor.editorKhokhlova Mariia Vlаdimirovnаen_GB
dc.date.accessioned2017-09-29T13:40:59Z-
dc.date.available2017-09-29T13:40:59Z-
dc.date.issued2017-
dc.identifier.other050802en_GB
dc.identifier.urihttp://hdl.handle.net/11701/7616-
dc.description.abstractВ работе освещены основные современные методы извлечения именованных сущностей из текстов различной тематики и жанровой принадлежности. Автором проведен обзор существующих систем выделения именованных сущностей и возможностей их адаптации под материал конкретной предметной области. В соответствии с поставленными задачами собран корпус текстов микроблогов на русском языке, проведена разметка трех типов сущностей - персона, организация и локация - и произведена адаптация двух различных инструментов извлечения именованных сущностей для анализа данного корпуса текстов. Работа по адаптации инструментов включала в себя написание грамматик (правил) и словарей-газетиров, настройку и замену модулей систем. В работе также проведено сравнение результатов систем на корпусе микроблогов с результатами, полученными на более традиционном для данной области корпусе новостных текстов. Полученные результаты говорят о целесообразности выбранного подхода и предоставляют возможность дальнейшего совершенствования методов и систем извлечения именованных сущностей, в частности, на собранном в рамках исследования корпусе.ru_RU
dc.description.abstractThe paper provides a review of main modern methods of named entity recognition. The author studies existing systems in order to identify the possibilities of their adaptation to the material of a particular subject area. In accordance with the tasks set, the corpus of microblogging texts in Russian language was compiled and annotated with three types of entities - person, organization and location. One of the tasks was to adapt two different named entity recognition tools to parse this corpora. Work on the adaptation of the tools included writing context free grammars (rules) and dictionaries-gazetteers, setting up and replacing system modules. The author also compares the results that the two systems have shown on microblog text with the results obtained on the more traditional newswire corpus. The results of the study indicate the expediency of the chosen approach and at the same time provide an opportunity for further improvement of methods and systems for named entity recognition, in particular, using the corpus assembled within the framework of the study.en_GB
dc.language.isoru-
dc.subjectименованные сущностиru_RU
dc.subjectизвлечение именованных сущностейru_RU
dc.subjectnamed entity recognitionen_GB
dc.subjectrule-based approachen_GB
dc.titleStudy and development of methods for named entity recognitionen_GB
dc.title.alternativeИсследование и разработка методов извлечения именованных сущностейru_RU
Располагается в коллекциях:MASTER'S STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.