Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/4210
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Михайлова Елена Георгиевна | ru_RU |
dc.contributor.author | Дюрдева Полина Сергеевна | ru_RU |
dc.contributor.author | Diurdeva Polina | en_GB |
dc.contributor.editor | Кандидат физико-математических наук Е.Г.Михайлова | ru_RU |
dc.contributor.editor | Candidate of Physics and Mathematics E.G.Mikhailova | en_GB |
dc.date.accessioned | 2016-10-10T02:12:46Z | - |
dc.date.available | 2016-10-10T02:12:46Z | - |
dc.date.issued | 2016 | |
dc.identifier.other | 011671 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/4210 | - |
dc.description.abstract | В последнее время стала популярной задача идентификации автора в связи с большим количеством текстов в цифровом виде. В настоящей работе проводится исследование метода распределения частот буквосочетаний для решения альтернативных задач: классификации и кластеризации текстов по авторству. Данный метод заключается в сопоставлении каждому тексту плотности функции распределения (ПФР) частот встречаемости буквосочетаний, состоящих из трех символов. В работе произведен анализ применимости этого подхода для текстов различной длины, написанных в публицистическом и литературном стиле речи на русском, английском и немецком языках. Приводятся результаты проведенных экспериментов. | ru_RU |
dc.description.abstract | Lately writer identification problem has become actual due to huge amount of documents in digital form. In the current work a new method based on letter frequency distribution is investigated for solving such tasks as classification and clustering of documents by authorship. The investigated method is based on mapping each document to PDF space, where PDF is a probability function density of three-gram frequency. The applicability of this approach for texts with different lengths, written in publicistic and literary styles, written in English, Russian and German languages is analyzed. The results of numerical experiments are provided. | en_GB |
dc.language.iso | ru | |
dc.subject | идентификация автора текста | ru_RU |
dc.subject | классификация | ru_RU |
dc.subject | кластеризация | ru_RU |
dc.subject | ПФР | ru_RU |
dc.subject | N-граммы | ru_RU |
dc.subject | author identification | en_GB |
dc.subject | classification | en_GB |
dc.subject | clustering | en_GB |
dc.subject | en_GB | |
dc.subject | n-grams. | en_GB |
dc.title | Automated writer identification based on letter frequency distribution | en_GB |
dc.title.alternative | Автоматическое определение автора текста на основе распределения частот буквосочетаний | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Diploma_Durdeva_Polina.pdf | Article | 149,71 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st007740_Mixajlova_Elena_Georgievna_(supervisor)(En).txt | ReviewSV | 2,34 kB | Text | Просмотреть/Открыть |
reviewSV_st007740_Mixajlova_Elena_Georgievna_(supervisor)(Ru).txt | ReviewSV | 4,23 kB | Text | Просмотреть/Открыть |
reviewSV_st007740_Mixajlova_Elena_Georgievna_(reviewer)(En).txt | ReviewRev | 2,92 kB | Text | Просмотреть/Открыть |
reviewSV_st007740_Mixajlova_Elena_Georgievna_(reviewer)(Ru).txt | ReviewRev | 5,58 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.