Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/5052
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorГрафеева Наталья Генриховнаru_RU
dc.contributor.authorБодрова Анастасия Александровнаru_RU
dc.contributor.authorBodrova Anastasiyaen_GB
dc.contributor.editorКандидат физико-математических наук, доцент Н.Г.Графееваru_RU
dc.contributor.editorCandidate of Physics and Mathematics, Associate Professor N.G.Grafeevaen_GB
dc.date.accessioned2016-10-10T02:21:44Z-
dc.date.available2016-10-10T02:21:44Z-
dc.date.issued2016
dc.identifier.other027629en_GB
dc.identifier.urihttp://hdl.handle.net/11701/5052-
dc.description.abstractДанная работа описывает опыт создания прототипа системы для разрешения кореференции для текстов на русском языке. Разрешение кореференции является одной из ключевых подзадач извлечения информации и заключается в объединении текстовых упоминаний, относящихся к одной сущности дискурса. В данной работе мы поставили целью применить алгоритм кластеризации для разрешения кореференции на русскоязычных новостных текстов, сузив задачу до кластеризации имён собственных, которые относятся к персонам. Модель нашей работы включала в себя два этапа: извлечение упоминаний и их кластеризацию. Извлечение упоминаний происходило с помощью вручную написанных грамматик для Томита-парсера. Для объединения извлечённых имён в сущности, мы использовали аггломеративную кластеризацию на сущностном уровне с помощью векторов взвешенных признаков. Мы проводили эксперименты на новостных текстах, размеченных для соревнования Dialogue Evaluation factRuEval-2016, а так же сравнивали результаты с участниками соревнования и встроенными алгоритмами Томита-парсера для извлечения и кластеризации имён. В итоге, мы получили сравнимые результаты и превзошли результаты Томита-парсера.ru_RU
dc.description.abstractThis work describes the experience of creating a coreference resolution prototype system for Russian-language. Coreference resolution is a key subtask of Information Extraction, and aims to grouping mentions that refer to the same discourse entity. This work was aimed to applying a clusterization algorithm for Russian-language newswire texts. We narrowed the task to Person proper names clusterization. Our approach model included two steps: mention extraction and clusterization. Mention extraction was proceeded by manually-created grammars for Tomita-parser. For mention grouping, we used agglomerative clusterization on entity level with the help of weighted feature vectors. We run our experiments on newswire texts, annotated for fastRuEval-2016 competetion, organized by Dialogue Evaluation. We compare our results with competitors. As a baseline, we set built-in Tomita-parser algorithms for name extraction and name clusterization. We got comparable results, and outperformed the baseline.en_GB
dc.language.isoru
dc.subjectобработка естественного языкаru_RU
dc.subjectразрешение кореференцииru_RU
dc.subjectаггломеративная кластеризацияru_RU
dc.subjectnatural language processingen_GB
dc.subjectcoreference resolutionen_GB
dc.subjectagglomerative clusterizationen_GB
dc.titleCoreference resolution using clusterisation algorithmsen_GB
dc.title.alternativeРазрешение кореференции методами кластеризацииru_RU
Располагается в коллекциях:MASTER'S STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.