Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/26669
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorРайк Алексей Владимировичru_RU
dc.contributor.advisorRajk Aleksej Vladimirovicen_GB
dc.contributor.authorЛишик Елена Викторовнаru_RU
dc.contributor.authorLisik Elena Viktorovnaen_GB
dc.contributor.editorГоловкина Анна Геннадьевнаru_RU
dc.contributor.editorGolovkina Anna Gennadevnaen_GB
dc.date.accessioned2021-03-24T15:53:31Z-
dc.date.available2021-03-24T15:53:31Z-
dc.date.issued2020
dc.identifier.other070113en_GB
dc.identifier.urihttp://hdl.handle.net/11701/26669-
dc.description.abstractВыпускная работа посвящена созданию сервиса по распознаванию речи, в частности отдельных речевых команд, и их последующем преобразовании в текст. Данный сервис состоит из трех основных компонент: сервера для обработки и хранения данных, модуля, отвечающего за распознавание речи, интерфейса для взаимодействия пользователя (на примере мессенджера Telegram) и блока распознавания. В первую очередь сервер с помощью набора программ FFmpeg преобразовывает аудиодорожку в необходимый для дальнейшей работы формат, сохраняет данные и отправляет файл в сервис распознавания речи. Далее происходит конвертирование голосового сообщения в текстовое с помощью системы распознавания CMUSphinx, в основе которой лежит комбинация марковских моделей (метод Баума-Велша и алгоритм Витерби) и нейросетевых методов. Заключительным этапом является отправка полученного результата telegram-боту, который выступает связующим элементом между пользовательским интерфейсом и созданным сервисом преобразования. Создание и настройка взаимодействия подсистем между собой, а также выбор и реализация соответствующих технологий и алгоритмов, учитывающих особенности последующего использования сервиса, представляют собой основную цель данной работы. В результате выполнения выпускной квалификационной работы был разработан сервис по распознаванию речи с возможностью в будущем интегрировать его в другие мессенджеры и социальные сети (как популярные, так и созданные в рамках одной компании) без временного отключения в уже существующих проектах.ru_RU
dc.description.abstractThe final work is devoted to development of a speech recognition service, in particular individual speech commands, and their subsequent conversion to text. This service consists of three main components: server for processing and storing data, module responsible for speech recognition, interface for user interaction (based on telegram messenger), and recognition unit. First of all, the server uses FFmpeg programs to convert the audio track to the format necessary for further work, saves the data and sends file to the speech recognition service. Next, the voice message is converted to text using the CMUSphinx recognition system, which is based on a combination of Hidden Markov Models (the Baum-Welsch method and the Viterbi algorithm) and neural network methods. The final step is sending the result to the telegram bot – link between the user and created conversion service. Main objective of this work is realization of the interaction of subsystems with each other, as well as selecting and implementing appropriate technologies and algorithms taking into account the specifics of subsequent use of the service. As a result of the final qualification work, a speech recognition service was developed with the ability to integrate it into other messengers and social networks in the future (both popular and created in the frames of one company) without its temporarily disabling in existing projects.en_GB
dc.language.isoru
dc.subjectраспознавание речиru_RU
dc.subjectсерверное приложениеru_RU
dc.subjectметрики качестваru_RU
dc.subjectскрытые марковские моделиru_RU
dc.subjectалгоритм Витербиru_RU
dc.subjectалгоритм Баума-Велшаru_RU
dc.subjectнейронные сетиru_RU
dc.subjectалгоритмы глубокого обученияru_RU
dc.subjectадаптация акустической моделиru_RU
dc.subjecttelegram-ботru_RU
dc.subjectVPNru_RU
dc.subjectspeech recognitionen_GB
dc.subjectserver applicationen_GB
dc.subjectquality metricsen_GB
dc.subjectHidden Markov Modelsen_GB
dc.subjectViterbi algorithmen_GB
dc.subjectBaum-Welch algorithmen_GB
dc.subjectneural networksen_GB
dc.subjectdeep learning algorithmsen_GB
dc.subjectacoustic model adaptationen_GB
dc.subjecttelegram-boten_GB
dc.subjectVPNen_GB
dc.titleSpeech recognition using deep learning algorithmsen_GB
dc.title.alternativeРаспознавание речи с использованием алгоритмов глубокого обученияru_RU
Располагается в коллекциях:MASTER'S STUDIES

Файлы этого ресурса:
Файл Описание РазмерФормат 
VKR_LisikEV.pdfArticle2,48 MBAdobe PDFПросмотреть/Открыть
reviewSV_Otzyv_rukovoditela.pdfReviewSV122,41 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.