Old Church Slavonic corpus linguistic issues

Афанасьев Илья Андреевич; Afanasev Ila Andreevic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/31092

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Соболев Андрей Николаевич	ru_RU
dc.contributor.advisor	Sobolev Andrej Nikolaevic	en_GB
dc.contributor.author	Афанасьев Илья Андреевич	ru_RU
dc.contributor.author	Afanasev Ila Andreevic	en_GB
dc.contributor.editor	Бабанов Андрей Владимирович	ru_RU
dc.contributor.editor	Babanov Andrej Vladimirovic	en_GB
dc.date.accessioned	2021-07-31T18:39:34Z	-
dc.date.available	2021-07-31T18:39:34Z	-
dc.date.issued	2021
dc.identifier.other	079549	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/31092	-
dc.description.abstract	В работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% - на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков - 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении.	ru_RU
dc.description.abstract	The paper examines the creation of the corpus of the Old Church Slavonic language, and provides a detailed analysis of the linguistic problems that a researcher may encounter in the process of making such corpus. A brief description of the state of corpus linguistics by the end of the first quarter of the XXI century is given. The Old Church Slavonic language is characterized as a linguistic idiom, which possesses a number of key features that separate it from other Slavic languages, among which a number of phonetic characteristics stand out. Taking them into consideration, the texts that are going to form the corpus of the Old Slavonic language have been defined. A number of regular expressions have been written for the purposes of text preprocessing. A unique tag set based on U-POS, the Universal Dependencies tag set, was created, and POS tagging was performed using a hidden Markov model reinforced by a set of rules. The accuracy of the POS tagging was 81% on the test data set, and 51% on the text of the Kiev Folia that was significantly different from the test data set. Taking into account the results of POS tagging, lemmatization was performed using a recurrent neural network. To calculate its accuracy, we utilized previously almost unused for this purposes metrics, measures of string similarity: the Levenshtein, Damerau-Levenshtein, and Jaro-Winkler distances. The reasons for necessity of their use are provided. The accuracy on the training data set reached 85%, on the text of the Kiev Folia - 55%. A number of texts have been marked up and placed in a database, from where they can be accessed via a web application written in C#, Python, and JavaScript. Thus, the pipeline of the development of the corpus of the Old Church Slavonic language was described, and the linguistic problems that the researcher faces during its practical implementation were identified.	en_GB
dc.language.iso	ru
dc.subject	старославянский язык	ru_RU
dc.subject	корпусная лингвистика	ru_RU
dc.subject	автоматическая обработка естественного языка	ru_RU
dc.subject	АОТ	ru_RU
dc.subject	лингвистическая гетерогенность	ru_RU
dc.subject	Old Church Slavonic	en_GB
dc.subject	corpus linguistics	en_GB
dc.subject	natural language processing	en_GB
dc.subject	NLP	en_GB
dc.subject	linguistic heterogenuity	en_GB
dc.title	Old Church Slavonic corpus linguistic issues	en_GB
dc.title.alternative	Лингвистические проблемы корпуса старославянского языка	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Lingvisticeskie_problemy_korpusa_staroslavanskogo_azyka.docx	Article	517,48 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_Afanasev_VKR_ONR.pdf	ReviewSV	796,12 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета