Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/40230
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Кириченко Владимир Владимирович | ru_RU |
dc.contributor.advisor | Kiricenko Vladimir Vladimirovic | en_GB |
dc.contributor.author | Михайловский Дмитрий Владимирович | ru_RU |
dc.contributor.author | Mihajlovskij Dmitrij Vladimirovic | en_GB |
dc.contributor.editor | Авдюшенко Александр Юрьевич | ru_RU |
dc.contributor.editor | Avdusenko Aleksandr Urevic | en_GB |
dc.date.accessioned | 2023-04-06T21:50:10Z | - |
dc.date.available | 2023-04-06T21:50:10Z | - |
dc.date.issued | 2022 | |
dc.identifier.other | 069189 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/40230 | - |
dc.description.abstract | В этой работе мы исследовали задачу синтеза речи. Нами была получена новая параметризация звукового сигнала. Экспериментально было доказано, что используя спектрограммы вместе с этой параметризацией можно получить аудио, которое звучит более естественно, чем с алгоритмом Гриффина-Лима. Этот результат позволит избавиться от нейросетевых вокодеров, которые вычислительно дороги. Была обучена модель синтеза речи, которая состоит из модифицированной модели FastPitch, генерирующей спектрограммы, и оптимизации параметров на- шего представления сигнала, из которого мы получаем итоговое аудио. Также экспериментально было показано, что используя разные способы пред- сказания фазовой информации вместе со спектрограммой, не получается гене- рировать аудио, сопоставимые по качеству с человеческой речью. | ru_RU |
dc.description.abstract | In this work, we investigated the problem of text-to-speech synthesis. We obtained a new parametrization of the audio signal. It was experimentally proved that using spectrograms along with this parameterization it is possible to produce audio that sounds more natural than with the Griffin-Lim algorithm. This result will make it possible to get rid of neural vocoders, which are themselves computationally expensive. A speech synthesis model was trained, which consists of a modified FastPitch model generating spectrograms and optimization of the parameters of our signal representation. It was also experimentally shown that using different methods of predicting phase information together with a spectrogram, it is not possible to generate audio comparable in quality to human speech. | en_GB |
dc.language.iso | ru | |
dc.subject | синтез речи | ru_RU |
dc.subject | машинное обучение | ru_RU |
dc.subject | глубокое обучение | ru_RU |
dc.subject | обработка сигналов | ru_RU |
dc.subject | text-to-speech synthesis | en_GB |
dc.subject | machine learning | en_GB |
dc.subject | deep learning | en_GB |
dc.subject | signal processing | en_GB |
dc.title | End2End voice modelling | en_GB |
dc.title.alternative | End2End моделирование голоса | ru_RU |
Располагается в коллекциях: | BACHELOR STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
thesis.pdf | Article | 429,75 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_mihaylovsky22_signed.pdf | ReviewSV | 55,29 kB | Adobe PDF | Просмотреть/Открыть |
reviewSV_st069189_Mihajlovskij_Dmitrij_Vladimirovic_(supervisor)(Ru).txt | ReviewSV | 5,69 kB | Text | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.