Speech recognition using deep learning algorithms

Лишик Елена Викторовна; Lisik Elena Viktorovna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/26669

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Райк Алексей Владимирович	ru_RU
dc.contributor.advisor	Rajk Aleksej Vladimirovic	en_GB
dc.contributor.author	Лишик Елена Викторовна	ru_RU
dc.contributor.author	Lisik Elena Viktorovna	en_GB
dc.contributor.editor	Головкина Анна Геннадьевна	ru_RU
dc.contributor.editor	Golovkina Anna Gennadevna	en_GB
dc.date.accessioned	2021-03-24T15:53:31Z	-
dc.date.available	2021-03-24T15:53:31Z	-
dc.date.issued	2020
dc.identifier.other	070113	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/26669	-
dc.description.abstract	Выпускная работа посвящена созданию сервиса по распознаванию речи, в частности отдельных речевых команд, и их последующем преобразовании в текст. Данный сервис состоит из трех основных компонент: сервера для обработки и хранения данных, модуля, отвечающего за распознавание речи, интерфейса для взаимодействия пользователя (на примере мессенджера Telegram) и блока распознавания. В первую очередь сервер с помощью набора программ FFmpeg преобразовывает аудиодорожку в необходимый для дальнейшей работы формат, сохраняет данные и отправляет файл в сервис распознавания речи. Далее происходит конвертирование голосового сообщения в текстовое с помощью системы распознавания CMUSphinx, в основе которой лежит комбинация марковских моделей (метод Баума-Велша и алгоритм Витерби) и нейросетевых методов. Заключительным этапом является отправка полученного результата telegram-боту, который выступает связующим элементом между пользовательским интерфейсом и созданным сервисом преобразования. Создание и настройка взаимодействия подсистем между собой, а также выбор и реализация соответствующих технологий и алгоритмов, учитывающих особенности последующего использования сервиса, представляют собой основную цель данной работы. В результате выполнения выпускной квалификационной работы был разработан сервис по распознаванию речи с возможностью в будущем интегрировать его в другие мессенджеры и социальные сети (как популярные, так и созданные в рамках одной компании) без временного отключения в уже существующих проектах.	ru_RU
dc.description.abstract	The final work is devoted to development of a speech recognition service, in particular individual speech commands, and their subsequent conversion to text. This service consists of three main components: server for processing and storing data, module responsible for speech recognition, interface for user interaction (based on telegram messenger), and recognition unit. First of all, the server uses FFmpeg programs to convert the audio track to the format necessary for further work, saves the data and sends file to the speech recognition service. Next, the voice message is converted to text using the CMUSphinx recognition system, which is based on a combination of Hidden Markov Models (the Baum-Welsch method and the Viterbi algorithm) and neural network methods. The final step is sending the result to the telegram bot – link between the user and created conversion service. Main objective of this work is realization of the interaction of subsystems with each other, as well as selecting and implementing appropriate technologies and algorithms taking into account the specifics of subsequent use of the service. As a result of the final qualification work, a speech recognition service was developed with the ability to integrate it into other messengers and social networks in the future (both popular and created in the frames of one company) without its temporarily disabling in existing projects.	en_GB
dc.language.iso	ru
dc.subject	распознавание речи	ru_RU
dc.subject	серверное приложение	ru_RU
dc.subject	метрики качества	ru_RU
dc.subject	скрытые марковские модели	ru_RU
dc.subject	алгоритм Витерби	ru_RU
dc.subject	алгоритм Баума-Велша	ru_RU
dc.subject	нейронные сети	ru_RU
dc.subject	алгоритмы глубокого обучения	ru_RU
dc.subject	адаптация акустической модели	ru_RU
dc.subject	telegram-бот	ru_RU
dc.subject	VPN	ru_RU
dc.subject	speech recognition	en_GB
dc.subject	server application	en_GB
dc.subject	quality metrics	en_GB
dc.subject	Hidden Markov Models	en_GB
dc.subject	Viterbi algorithm	en_GB
dc.subject	Baum-Welch algorithm	en_GB
dc.subject	neural networks	en_GB
dc.subject	deep learning algorithms	en_GB
dc.subject	acoustic model adaptation	en_GB
dc.subject	telegram-bot	en_GB
dc.subject	VPN	en_GB
dc.title	Speech recognition using deep learning algorithms	en_GB
dc.title.alternative	Распознавание речи с использованием алгоритмов глубокого обучения	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
VKR_LisikEV.pdf	Article	2,48 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_rukovoditela.pdf	ReviewSV	122,41 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета