Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/31092
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Соболев Андрей Николаевич | ru_RU |
dc.contributor.advisor | Sobolev Andrej Nikolaevic | en_GB |
dc.contributor.author | Афанасьев Илья Андреевич | ru_RU |
dc.contributor.author | Afanasev Ila Andreevic | en_GB |
dc.contributor.editor | Бабанов Андрей Владимирович | ru_RU |
dc.contributor.editor | Babanov Andrej Vladimirovic | en_GB |
dc.date.accessioned | 2021-07-31T18:39:34Z | - |
dc.date.available | 2021-07-31T18:39:34Z | - |
dc.date.issued | 2021 | |
dc.identifier.other | 079549 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/31092 | - |
dc.description.abstract | В работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% - на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков - 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении. | ru_RU |
dc.description.abstract | The paper examines the creation of the corpus of the Old Church Slavonic language, and provides a detailed analysis of the linguistic problems that a researcher may encounter in the process of making such corpus. A brief description of the state of corpus linguistics by the end of the first quarter of the XXI century is given. The Old Church Slavonic language is characterized as a linguistic idiom, which possesses a number of key features that separate it from other Slavic languages, among which a number of phonetic characteristics stand out. Taking them into consideration, the texts that are going to form the corpus of the Old Slavonic language have been defined. A number of regular expressions have been written for the purposes of text preprocessing. A unique tag set based on U-POS, the Universal Dependencies tag set, was created, and POS tagging was performed using a hidden Markov model reinforced by a set of rules. The accuracy of the POS tagging was 81% on the test data set, and 51% on the text of the Kiev Folia that was significantly different from the test data set. Taking into account the results of POS tagging, lemmatization was performed using a recurrent neural network. To calculate its accuracy, we utilized previously almost unused for this purposes metrics, measures of string similarity: the Levenshtein, Damerau-Levenshtein, and Jaro-Winkler distances. The reasons for necessity of their use are provided. The accuracy on the training data set reached 85%, on the text of the Kiev Folia - 55%. A number of texts have been marked up and placed in a database, from where they can be accessed via a web application written in C#, Python, and JavaScript. Thus, the pipeline of the development of the corpus of the Old Church Slavonic language was described, and the linguistic problems that the researcher faces during its practical implementation were identified. | en_GB |
dc.language.iso | ru | |
dc.subject | старославянский язык | ru_RU |
dc.subject | корпусная лингвистика | ru_RU |
dc.subject | автоматическая обработка естественного языка | ru_RU |
dc.subject | АОТ | ru_RU |
dc.subject | лингвистическая гетерогенность | ru_RU |
dc.subject | Old Church Slavonic | en_GB |
dc.subject | corpus linguistics | en_GB |
dc.subject | natural language processing | en_GB |
dc.subject | NLP | en_GB |
dc.subject | linguistic heterogenuity | en_GB |
dc.title | Old Church Slavonic corpus linguistic issues | en_GB |
dc.title.alternative | Лингвистические проблемы корпуса старославянского языка | ru_RU |
Располагается в коллекциях: | MASTER'S STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Lingvisticeskie_problemy_korpusa_staroslavanskogo_azyka.docx | Article | 517,48 kB | Microsoft Word XML | Просмотреть/Открыть |
reviewSV_Afanasev_VKR_ONR.pdf | ReviewSV | 796,12 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.