Coreference resolution using clusterisation algorithms

Бодрова Анастасия Александровна; Bodrova Anastasiya

Please use this identifier to cite or link to this item: http://hdl.handle.net/11701/5052

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Графеева Наталья Генриховна	ru_RU
dc.contributor.author	Бодрова Анастасия Александровна	ru_RU
dc.contributor.author	Bodrova Anastasiya	en_GB
dc.contributor.editor	Кандидат физико-математических наук, доцент Н.Г.Графеева	ru_RU
dc.contributor.editor	Candidate of Physics and Mathematics, Associate Professor N.G.Grafeeva	en_GB
dc.date.accessioned	2016-10-10T02:21:44Z	-
dc.date.available	2016-10-10T02:21:44Z	-
dc.date.issued	2016
dc.identifier.other	027629	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/5052	-
dc.description.abstract	Данная работа описывает опыт создания прототипа системы для разрешения кореференции для текстов на русском языке. Разрешение кореференции является одной из ключевых подзадач извлечения информации и заключается в объединении текстовых упоминаний, относящихся к одной сущности дискурса. В данной работе мы поставили целью применить алгоритм кластеризации для разрешения кореференции на русскоязычных новостных текстов, сузив задачу до кластеризации имён собственных, которые относятся к персонам. Модель нашей работы включала в себя два этапа: извлечение упоминаний и их кластеризацию. Извлечение упоминаний происходило с помощью вручную написанных грамматик для Томита-парсера. Для объединения извлечённых имён в сущности, мы использовали аггломеративную кластеризацию на сущностном уровне с помощью векторов взвешенных признаков. Мы проводили эксперименты на новостных текстах, размеченных для соревнования Dialogue Evaluation factRuEval-2016, а так же сравнивали результаты с участниками соревнования и встроенными алгоритмами Томита-парсера для извлечения и кластеризации имён. В итоге, мы получили сравнимые результаты и превзошли результаты Томита-парсера.	ru_RU
dc.description.abstract	This work describes the experience of creating a coreference resolution prototype system for Russian-language. Coreference resolution is a key subtask of Information Extraction, and aims to grouping mentions that refer to the same discourse entity. This work was aimed to applying a clusterization algorithm for Russian-language newswire texts. We narrowed the task to Person proper names clusterization. Our approach model included two steps: mention extraction and clusterization. Mention extraction was proceeded by manually-created grammars for Tomita-parser. For mention grouping, we used agglomerative clusterization on entity level with the help of weighted feature vectors. We run our experiments on newswire texts, annotated for fastRuEval-2016 competetion, organized by Dialogue Evaluation. We compare our results with competitors. As a baseline, we set built-in Tomita-parser algorithms for name extraction and name clusterization. We got comparable results, and outperformed the baseline.	en_GB
dc.language.iso	ru
dc.subject	обработка естественного языка	ru_RU
dc.subject	разрешение кореференции	ru_RU
dc.subject	аггломеративная кластеризация	ru_RU
dc.subject	natural language processing	en_GB
dc.subject	coreference resolution	en_GB
dc.subject	agglomerative clusterization	en_GB
dc.title	Coreference resolution using clusterisation algorithms	en_GB
dc.title.alternative	Разрешение кореференции методами кластеризации	ru_RU
Appears in Collections:	MASTER'S STUDIES

Files in This Item:

File	Description	Size	Format
Bodrova_masterThesis_Rus_Final.pdf	Article	188,81 kB	Adobe PDF	View/Open
reviewSV_Otzyv_Bodrova.pdf	ReviewSV	501,47 kB	Adobe PDF	View/Open
reviewSV_st006961_Grafeeva_Natalya_Genrixovna_(supervisor)(Ru).txt	ReviewSV	4,34 kB	Text	View/Open
reviewSV_bodrova_recenzia.docx	ReviewRev	16,52 kB	Microsoft Word XML	View/Open
reviewSV_st006961_Grafeeva_Natalya_Genrixovna_(reviewer)(Ru).txt	ReviewRev	3,84 kB	Text	View/Open

Show simple item record

Research RepositorySaint Petersburg State University

Research Repository
Saint Petersburg State University