Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/31092
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorСоболев Андрей Николаевичru_RU
dc.contributor.advisorSobolev Andrej Nikolaevicen_GB
dc.contributor.authorАфанасьев Илья Андреевичru_RU
dc.contributor.authorAfanasev Ila Andreevicen_GB
dc.contributor.editorБабанов Андрей Владимировичru_RU
dc.contributor.editorBabanov Andrej Vladimirovicen_GB
dc.date.accessioned2021-07-31T18:39:34Z-
dc.date.available2021-07-31T18:39:34Z-
dc.date.issued2021
dc.identifier.other079549en_GB
dc.identifier.urihttp://hdl.handle.net/11701/31092-
dc.description.abstractВ работе исследуется создание корпуса старославянского языка, и проводится подробный анализ лингвистических проблем, с которыми исследователь может столкнуться в этом процессе. Даётся краткая характеристика состояния корпусной лингвистики к концу I четверти XXI века. Старославянский язык характеризуется как языковой идиом, обладающий рядом ключевых особенностей, отделяющих его от иных славянских языков, среди которых особенно выделяется ряд фонетических характеристик. С их учётом был сформирован текстовый состав корпуса старославянского языка. Написан ряд регулярных выражений, помогающих в предобработке текста. Был создан уникальный набор тэгов, базирующийся на U-POS, наборе тэгов Universal Dependencies, и была проведена частеречная разметка при помощи скрытой марковской модели, усиленной набором правил. Точность частеречной разметки составила 81% на тестовом наборе данных, и 51% - на значительно отличающимся от него тексте Киевских листков. С учётом результатов частеречной разметки была проведена лемматизация при помощи рекуррентной нейронной сети. Для вычисления её точности были применены раннее почти не применявшиеся метрики, меры сходства строк: расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Обоснована необходимость их использования. Точность на тренировочном наборе данных достигла 85%, на тексте Киевских листков - 55%. Ряд текстов был размечен и помещён в базу данных, откуда может быть доступен через веб-приложение, написанное на C#, Python и JavaScript. Таким образом, был описан пайплайн разработки корпуса старославянского языка, выявлены лингвистические проблемы, с которыми исследователь сталкивается при его практическом осуществлении.ru_RU
dc.description.abstractThe paper examines the creation of the corpus of the Old Church Slavonic language, and provides a detailed analysis of the linguistic problems that a researcher may encounter in the process of making such corpus. A brief description of the state of corpus linguistics by the end of the first quarter of the XXI century is given. The Old Church Slavonic language is characterized as a linguistic idiom, which possesses a number of key features that separate it from other Slavic languages, among which a number of phonetic characteristics stand out. Taking them into consideration, the texts that are going to form the corpus of the Old Slavonic language have been defined. A number of regular expressions have been written for the purposes of text preprocessing. A unique tag set based on U-POS, the Universal Dependencies tag set, was created, and POS tagging was performed using a hidden Markov model reinforced by a set of rules. The accuracy of the POS tagging was 81% on the test data set, and 51% on the text of the Kiev Folia that was significantly different from the test data set. Taking into account the results of POS tagging, lemmatization was performed using a recurrent neural network. To calculate its accuracy, we utilized previously almost unused for this purposes metrics, measures of string similarity: the Levenshtein, Damerau-Levenshtein, and Jaro-Winkler distances. The reasons for necessity of their use are provided. The accuracy on the training data set reached 85%, on the text of the Kiev Folia - 55%. A number of texts have been marked up and placed in a database, from where they can be accessed via a web application written in C#, Python, and JavaScript. Thus, the pipeline of the development of the corpus of the Old Church Slavonic language was described, and the linguistic problems that the researcher faces during its practical implementation were identified.en_GB
dc.language.isoru
dc.subjectстарославянский языкru_RU
dc.subjectкорпусная лингвистикаru_RU
dc.subjectавтоматическая обработка естественного языкаru_RU
dc.subjectАОТru_RU
dc.subjectлингвистическая гетерогенностьru_RU
dc.subjectOld Church Slavonicen_GB
dc.subjectcorpus linguisticsen_GB
dc.subjectnatural language processingen_GB
dc.subjectNLPen_GB
dc.subjectlinguistic heterogenuityen_GB
dc.titleOld Church Slavonic corpus linguistic issuesen_GB
dc.title.alternativeЛингвистические проблемы корпуса старославянского языкаru_RU
Располагается в коллекциях:MASTER'S STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
Lingvisticeskie_problemy_korpusa_staroslavanskogo_azyka.docxArticle517,48 kBMicrosoft Word XMLПросмотреть/Открыть
reviewSV_Afanasev_VKR_ONR.pdfReviewSV796,12 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.