Prediction of phrase intonation for text-to-speech synthesis

Меньшикова Алла Павловна; Mensikova Alla Pavlovna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/30108

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Таланов Андрей Олегович	ru_RU
dc.contributor.advisor	Talanov Andrej Olegovic	en_GB
dc.contributor.author	Меньшикова Алла Павловна	ru_RU
dc.contributor.author	Mensikova Alla Pavlovna	en_GB
dc.contributor.editor	Кочаров Даниил Александрович	ru_RU
dc.contributor.editor	Kocarov Daniil Aleksandrovic	en_GB
dc.date.accessioned	2021-07-31T18:17:27Z	-
dc.date.available	2021-07-31T18:17:27Z	-
dc.date.issued	2021
dc.identifier.other	048932	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/30108	-
dc.description.abstract	Благодаря активным исследованиям в области комплексных систем синтеза речи в последнее время, синтезированная речь по своей естественности стала приближаться к человеческой. Однако было неоднократно показано, что использование лингвистических признаков в таких системах способствует дальнейшему улучшению качества синтеза. Интонационная аннотация также может быть применена для этой цели. По этой причине в данной работе исследуется метод предсказания интонационного оформления высказывания. На материале русского языка была разработана система, предсказывающая расположение интонационных центров и интонационные модели (в терминах системы интонационного описания Н. Б. Вольской). Были обучены дикторозависимые и дикторонезависимые BiLSTM модели, а также было изучено влияние различных признаков на работу системы: синтаксических, пунктуационных, морфологических. фонетических и эмбеддингов BERT. Дикторонезависимая система показала 90% F1-меры при предсказании расположении интонационных центров и 61% точности при предсказании интонационных моделей. Также была исследована эффективность дикторозависимых и меж-жанровых моделей.	ru_RU
dc.description.abstract	Thanks to recent advances in End-to-End systems for Text-to-Speech synthesis, the level of naturalness of synthesized speech is now close to the human one. However, the use of linguistic features in such systems has been repeatedly demonstrated, as they significantly improve the synthesis of prosody. Among other features, predicted prosodic annotation can be also applied to this end. Thus, in this study, I explore the method of intonation pattern prediction from the text. Using the material of Russian, I attempt to predict the nucleus placement within an intonation phrase and classify it in terms of systems of Russian intonation description. Speaker-dependent and independent BiLSTM models are trained, and the influence of such features as syntactic relations, BERT embeddings, punctuation, POS tags, and phrase break indication is studied. The speaker-independent model shows 90% of F1-measure for nucleus placement and 61% of accuracy for intonation construction prediction. Performance of speaker-dependent and cross-genre models is also estimated.	en_GB
dc.language.iso	ru
dc.subject	синтез речи	ru_RU
dc.subject	машинное обучение	ru_RU
dc.subject	интонация	ru_RU
dc.subject	обработка естественного языка	ru_RU
dc.subject	speech synthesis	en_GB
dc.subject	machine learning	en_GB
dc.subject	prosody	en_GB
dc.subject	natural language processing	en_GB
dc.title	Prediction of phrase intonation for text-to-speech synthesis	en_GB
dc.title.alternative	Предсказание интонационного оформления высказывания для синтеза речи по тексту	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
VKR_2021__1_.pdf	Article	974,56 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_naucnogo_rukovoditela_2021___MensikovaAP.pdf	ReviewSV	1,67 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета