Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://hdl.handle.net/11701/26669
Полная запись метаданных
Поле DC | Значение | Язык |
---|---|---|
dc.contributor.advisor | Райк Алексей Владимирович | ru_RU |
dc.contributor.advisor | Rajk Aleksej Vladimirovic | en_GB |
dc.contributor.author | Лишик Елена Викторовна | ru_RU |
dc.contributor.author | Lisik Elena Viktorovna | en_GB |
dc.contributor.editor | Головкина Анна Геннадьевна | ru_RU |
dc.contributor.editor | Golovkina Anna Gennadevna | en_GB |
dc.date.accessioned | 2021-03-24T15:53:31Z | - |
dc.date.available | 2021-03-24T15:53:31Z | - |
dc.date.issued | 2020 | |
dc.identifier.other | 070113 | en_GB |
dc.identifier.uri | http://hdl.handle.net/11701/26669 | - |
dc.description.abstract | Выпускная работа посвящена созданию сервиса по распознаванию речи, в частности отдельных речевых команд, и их последующем преобразовании в текст. Данный сервис состоит из трех основных компонент: сервера для обработки и хранения данных, модуля, отвечающего за распознавание речи, интерфейса для взаимодействия пользователя (на примере мессенджера Telegram) и блока распознавания. В первую очередь сервер с помощью набора программ FFmpeg преобразовывает аудиодорожку в необходимый для дальнейшей работы формат, сохраняет данные и отправляет файл в сервис распознавания речи. Далее происходит конвертирование голосового сообщения в текстовое с помощью системы распознавания CMUSphinx, в основе которой лежит комбинация марковских моделей (метод Баума-Велша и алгоритм Витерби) и нейросетевых методов. Заключительным этапом является отправка полученного результата telegram-боту, который выступает связующим элементом между пользовательским интерфейсом и созданным сервисом преобразования. Создание и настройка взаимодействия подсистем между собой, а также выбор и реализация соответствующих технологий и алгоритмов, учитывающих особенности последующего использования сервиса, представляют собой основную цель данной работы. В результате выполнения выпускной квалификационной работы был разработан сервис по распознаванию речи с возможностью в будущем интегрировать его в другие мессенджеры и социальные сети (как популярные, так и созданные в рамках одной компании) без временного отключения в уже существующих проектах. | ru_RU |
dc.description.abstract | The final work is devoted to development of a speech recognition service, in particular individual speech commands, and their subsequent conversion to text. This service consists of three main components: server for processing and storing data, module responsible for speech recognition, interface for user interaction (based on telegram messenger), and recognition unit. First of all, the server uses FFmpeg programs to convert the audio track to the format necessary for further work, saves the data and sends file to the speech recognition service. Next, the voice message is converted to text using the CMUSphinx recognition system, which is based on a combination of Hidden Markov Models (the Baum-Welsch method and the Viterbi algorithm) and neural network methods. The final step is sending the result to the telegram bot – link between the user and created conversion service. Main objective of this work is realization of the interaction of subsystems with each other, as well as selecting and implementing appropriate technologies and algorithms taking into account the specifics of subsequent use of the service. As a result of the final qualification work, a speech recognition service was developed with the ability to integrate it into other messengers and social networks in the future (both popular and created in the frames of one company) without its temporarily disabling in existing projects. | en_GB |
dc.language.iso | ru | |
dc.subject | распознавание речи | ru_RU |
dc.subject | серверное приложение | ru_RU |
dc.subject | метрики качества | ru_RU |
dc.subject | скрытые марковские модели | ru_RU |
dc.subject | алгоритм Витерби | ru_RU |
dc.subject | алгоритм Баума-Велша | ru_RU |
dc.subject | нейронные сети | ru_RU |
dc.subject | алгоритмы глубокого обучения | ru_RU |
dc.subject | адаптация акустической модели | ru_RU |
dc.subject | telegram-бот | ru_RU |
dc.subject | VPN | ru_RU |
dc.subject | speech recognition | en_GB |
dc.subject | server application | en_GB |
dc.subject | quality metrics | en_GB |
dc.subject | Hidden Markov Models | en_GB |
dc.subject | Viterbi algorithm | en_GB |
dc.subject | Baum-Welch algorithm | en_GB |
dc.subject | neural networks | en_GB |
dc.subject | deep learning algorithms | en_GB |
dc.subject | acoustic model adaptation | en_GB |
dc.subject | telegram-bot | en_GB |
dc.subject | VPN | en_GB |
dc.title | Speech recognition using deep learning algorithms | en_GB |
dc.title.alternative | Распознавание речи с использованием алгоритмов глубокого обучения | ru_RU |
Располагается в коллекциях: | MASTER'S STUDIES |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
VKR_LisikEV.pdf | Article | 2,48 MB | Adobe PDF | Просмотреть/Открыть |
reviewSV_Otzyv_rukovoditela.pdf | ReviewSV | 122,41 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.