End2End voice modelling

Михайловский Дмитрий Владимирович; Mihajlovskij Dmitrij Vladimirovic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/40230

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Кириченко Владимир Владимирович	ru_RU
dc.contributor.advisor	Kiricenko Vladimir Vladimirovic	en_GB
dc.contributor.author	Михайловский Дмитрий Владимирович	ru_RU
dc.contributor.author	Mihajlovskij Dmitrij Vladimirovic	en_GB
dc.contributor.editor	Авдюшенко Александр Юрьевич	ru_RU
dc.contributor.editor	Avdusenko Aleksandr Urevic	en_GB
dc.date.accessioned	2023-04-06T21:50:10Z	-
dc.date.available	2023-04-06T21:50:10Z	-
dc.date.issued	2022
dc.identifier.other	069189	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/40230	-
dc.description.abstract	В этой работе мы исследовали задачу синтеза речи. Нами была получена новая параметризация звукового сигнала. Экспериментально было доказано, что используя спектрограммы вместе с этой параметризацией можно получить аудио, которое звучит более естественно, чем с алгоритмом Гриффина-Лима. Этот результат позволит избавиться от нейросетевых вокодеров, которые вычислительно дороги. Была обучена модель синтеза речи, которая состоит из модифицированной модели FastPitch, генерирующей спектрограммы, и оптимизации параметров на- шего представления сигнала, из которого мы получаем итоговое аудио. Также экспериментально было показано, что используя разные способы пред- сказания фазовой информации вместе со спектрограммой, не получается гене- рировать аудио, сопоставимые по качеству с человеческой речью.	ru_RU
dc.description.abstract	In this work, we investigated the problem of text-to-speech synthesis. We obtained a new parametrization of the audio signal. It was experimentally proved that using spectrograms along with this parameterization it is possible to produce audio that sounds more natural than with the Griffin-Lim algorithm. This result will make it possible to get rid of neural vocoders, which are themselves computationally expensive. A speech synthesis model was trained, which consists of a modified FastPitch model generating spectrograms and optimization of the parameters of our signal representation. It was also experimentally shown that using different methods of predicting phase information together with a spectrogram, it is not possible to generate audio comparable in quality to human speech.	en_GB
dc.language.iso	ru
dc.subject	синтез речи	ru_RU
dc.subject	машинное обучение	ru_RU
dc.subject	глубокое обучение	ru_RU
dc.subject	обработка сигналов	ru_RU
dc.subject	text-to-speech synthesis	en_GB
dc.subject	machine learning	en_GB
dc.subject	deep learning	en_GB
dc.subject	signal processing	en_GB
dc.title	End2End voice modelling	en_GB
dc.title.alternative	End2End моделирование голоса	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
thesis.pdf	Article	429,75 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_mihaylovsky22_signed.pdf	ReviewSV	55,29 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_st069189_Mihajlovskij_Dmitrij_Vladimirovic_(supervisor)(Ru).txt	ReviewSV	5,69 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета