Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/40230
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorКириченко Владимир Владимировичru_RU
dc.contributor.advisorKiricenko Vladimir Vladimirovicen_GB
dc.contributor.authorМихайловский Дмитрий Владимировичru_RU
dc.contributor.authorMihajlovskij Dmitrij Vladimirovicen_GB
dc.contributor.editorАвдюшенко Александр Юрьевичru_RU
dc.contributor.editorAvdusenko Aleksandr Urevicen_GB
dc.date.accessioned2023-04-06T21:50:10Z-
dc.date.available2023-04-06T21:50:10Z-
dc.date.issued2022
dc.identifier.other069189en_GB
dc.identifier.urihttp://hdl.handle.net/11701/40230-
dc.description.abstractВ этой работе мы исследовали задачу синтеза речи. Нами была получена новая параметризация звукового сигнала. Экспериментально было доказано, что используя спектрограммы вместе с этой параметризацией можно получить аудио, которое звучит более естественно, чем с алгоритмом Гриффина-Лима. Этот результат позволит избавиться от нейросетевых вокодеров, которые вычислительно дороги. Была обучена модель синтеза речи, которая состоит из модифицированной модели FastPitch, генерирующей спектрограммы, и оптимизации параметров на- шего представления сигнала, из которого мы получаем итоговое аудио. Также экспериментально было показано, что используя разные способы пред- сказания фазовой информации вместе со спектрограммой, не получается гене- рировать аудио, сопоставимые по качеству с человеческой речью.ru_RU
dc.description.abstractIn this work, we investigated the problem of text-to-speech synthesis. We obtained a new parametrization of the audio signal. It was experimentally proved that using spectrograms along with this parameterization it is possible to produce audio that sounds more natural than with the Griffin-Lim algorithm. This result will make it possible to get rid of neural vocoders, which are themselves computationally expensive. A speech synthesis model was trained, which consists of a modified FastPitch model generating spectrograms and optimization of the parameters of our signal representation. It was also experimentally shown that using different methods of predicting phase information together with a spectrogram, it is not possible to generate audio comparable in quality to human speech.en_GB
dc.language.isoru
dc.subjectсинтез речиru_RU
dc.subjectмашинное обучениеru_RU
dc.subjectглубокое обучениеru_RU
dc.subjectобработка сигналовru_RU
dc.subjecttext-to-speech synthesisen_GB
dc.subjectmachine learningen_GB
dc.subjectdeep learningen_GB
dc.subjectsignal processingen_GB
dc.titleEnd2End voice modellingen_GB
dc.title.alternativeEnd2End моделирование голосаru_RU
Располагается в коллекциях:BACHELOR STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
thesis.pdfArticle429,75 kBAdobe PDFПросмотреть/Открыть
reviewSV_mihaylovsky22_signed.pdfReviewSV55,29 kBAdobe PDFПросмотреть/Открыть
reviewSV_st069189_Mihajlovskij_Dmitrij_Vladimirovic_(supervisor)(Ru).txtReviewSV5,69 kBTextПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.