Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/5052
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Графеева Наталья Генриховна | ru_RU |
dc.contributor.author | Бодрова Анастасия Александровна | ru_RU |
dc.contributor.author | Bodrova Anastasiya | en_GB |
dc.contributor.editor | Кандидат физико-математических наук, доцент Н.Г.Графеева | ru_RU |
dc.contributor.editor | Candidate of Physics and Mathematics, Associate Professor N.G.Grafeeva | en_GB |
dc.date.accessioned | 2016-10-10T02:21:44Z | - |
dc.date.available | 2016-10-10T02:21:44Z | - |
dc.date.issued | 2016 | |
dc.identifier.other | 027629 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/5052 | - |
dc.description.abstract | Данная работа описывает опыт создания прототипа системы для разрешения кореференции для текстов на русском языке. Разрешение кореференции является одной из ключевых подзадач извлечения информации и заключается в объединении текстовых упоминаний, относящихся к одной сущности дискурса. В данной работе мы поставили целью применить алгоритм кластеризации для разрешения кореференции на русскоязычных новостных текстов, сузив задачу до кластеризации имён собственных, которые относятся к персонам. Модель нашей работы включала в себя два этапа: извлечение упоминаний и их кластеризацию. Извлечение упоминаний происходило с помощью вручную написанных грамматик для Томита-парсера. Для объединения извлечённых имён в сущности, мы использовали аггломеративную кластеризацию на сущностном уровне с помощью векторов взвешенных признаков. Мы проводили эксперименты на новостных текстах, размеченных для соревнования Dialogue Evaluation factRuEval-2016, а так же сравнивали результаты с участниками соревнования и встроенными алгоритмами Томита-парсера для извлечения и кластеризации имён. В итоге, мы получили сравнимые результаты и превзошли результаты Томита-парсера. | ru_RU |
dc.description.abstract | This work describes the experience of creating a coreference resolution prototype system for Russian-language. Coreference resolution is a key subtask of Information Extraction, and aims to grouping mentions that refer to the same discourse entity. This work was aimed to applying a clusterization algorithm for Russian-language newswire texts. We narrowed the task to Person proper names clusterization. Our approach model included two steps: mention extraction and clusterization. Mention extraction was proceeded by manually-created grammars for Tomita-parser. For mention grouping, we used agglomerative clusterization on entity level with the help of weighted feature vectors. We run our experiments on newswire texts, annotated for fastRuEval-2016 competetion, organized by Dialogue Evaluation. We compare our results with competitors. As a baseline, we set built-in Tomita-parser algorithms for name extraction and name clusterization. We got comparable results, and outperformed the baseline. | en_GB |
dc.language.iso | ru | |
dc.subject | обработка естественного языка | ru_RU |
dc.subject | разрешение кореференции | ru_RU |
dc.subject | аггломеративная кластеризация | ru_RU |
dc.subject | natural language processing | en_GB |
dc.subject | coreference resolution | en_GB |
dc.subject | agglomerative clusterization | en_GB |
dc.title | Coreference resolution using clusterisation algorithms | en_GB |
dc.title.alternative | Разрешение кореференции методами кластеризации | ru_RU |
Располагается в коллекциях: | MASTER'S STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Bodrova_masterThesis_Rus_Final.pdf | Article | 188,81 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Otzyv_Bodrova.pdf | ReviewSV | 501,47 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st006961_Grafeeva_Natalya_Genrixovna_(supervisor)(Ru).txt | ReviewSV | 4,34 kB | Text | Просмотреть/Открыть |
reviewSV_bodrova_recenzia.docx | ReviewRev | 16,52 kB | Microsoft Word XML | Просмотреть/Открыть |
reviewSV_st006961_Grafeeva_Natalya_Genrixovna_(reviewer)(Ru).txt | ReviewRev | 3,84 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.