Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/4210
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorМихайлова Елена Георгиевнаru_RU
dc.contributor.authorДюрдева Полина Сергеевнаru_RU
dc.contributor.authorDiurdeva Polinaen_GB
dc.contributor.editorКандидат физико-математических наук Е.Г.Михайловаru_RU
dc.contributor.editorCandidate of Physics and Mathematics E.G.Mikhailovaen_GB
dc.date.accessioned2016-10-10T02:12:46Z-
dc.date.available2016-10-10T02:12:46Z-
dc.date.issued2016
dc.identifier.other011671en_GB
dc.identifier.urihttp://hdl.handle.net/11701/4210-
dc.description.abstractВ последнее время стала популярной задача идентификации автора в связи с большим количеством текстов в цифровом виде. В настоящей работе проводится исследование метода распределения частот буквосочетаний для решения альтернативных задач: классификации и кластеризации текстов по авторству. Данный метод заключается в сопоставлении каждому тексту плотности функции распределения (ПФР) частот встречаемости буквосочетаний, состоящих из трех символов. В работе произведен анализ применимости этого подхода для текстов различной длины, написанных в публицистическом и литературном стиле речи на русском, английском и немецком языках. Приводятся результаты проведенных экспериментов.ru_RU
dc.description.abstractLately writer identification problem has become actual due to huge amount of documents in digital form. In the current work a new method based on letter frequency distribution is investigated for solving such tasks as classification and clustering of documents by authorship. The investigated method is based on mapping each document to PDF space, where PDF is a probability function density of three-gram frequency. The applicability of this approach for texts with different lengths, written in publicistic and literary styles, written in English, Russian and German languages is analyzed. The results of numerical experiments are provided.en_GB
dc.language.isoru
dc.subjectидентификация автора текстаru_RU
dc.subjectклассификацияru_RU
dc.subjectкластеризацияru_RU
dc.subjectПФРru_RU
dc.subjectN-граммыru_RU
dc.subjectauthor identificationen_GB
dc.subjectclassificationen_GB
dc.subjectclusteringen_GB
dc.subjectPDFen_GB
dc.subjectn-grams.en_GB
dc.titleAutomated writer identification based on letter frequency distributionen_GB
dc.title.alternativeАвтоматическое определение автора текста на основе распределения частот буквосочетанийru_RU
Располагается в коллекциях:BACHELOR STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.