Development of speech recognition system for indexing and searching in a big collection of mediafiles

Федосеев Георгий Александрович; Fedoseev Georgii

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/13420

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Щеголева Надежда Львовна	ru_RU
dc.contributor.author	Федосеев Георгий Александрович	ru_RU
dc.contributor.author	Fedoseev Georgii	en_GB
dc.contributor.editor	Дегтярев Александр Борисович	ru_RU
dc.contributor.editor	Degtiarev Aleksandr Borisovich	en_GB
dc.date.accessioned	2018-07-26T15:25:57Z	-
dc.date.available	2018-07-26T15:25:57Z	-
dc.date.issued	2018
dc.identifier.other	032080	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/13420	-
dc.description.abstract	На сегодняшний день коммерческие системы распознавания русской речи достигли сравнимого с человеком уровня распознавания в 90-95%. В то же время, практически отсутствуют решения для русского языка с открытым исходным кодом на основе современных архитектур. Основная проблема заключается в отсутствии достаточно объемных открытых корпусов транскрибированной русской речи. В данной работе предложен метод автоматического создания корпусов объемом в несколько сотен часов речи и рассмотрен процесс создания системы распознавания речи на основе открытой реализации архитектуры DeepSpeech. Кроме того, в работе рассматривается применение построенной модели для создания системы поиска по речи в коллекции медиафайлов.	ru_RU
dc.description.abstract	To date, commercial systems for recognizing Russian speech have achieved 90-95% accuracy which is comparable to human level. At the same time, there are practically no open source solutions for Russian speech recognition based on modern architectures. The main reason is the lack of large enough public datasets of transcribed Russian speech. This paper proposes a method for automatic dataset crawling, resulting in datasets containing several hundred hours of speech, and describes ASR system creation based on the open source implementation of DeepSpeech architecture. In addition, the paper considers the application of the implemented model to create a search system for speech in the collection of media files.	en_GB
dc.language.iso	ru
dc.subject	распознавание речи	ru_RU
dc.subject	корпус речи	ru_RU
dc.subject	глубокая нейронная сеть	ru_RU
dc.subject	рекуррентная нейронная сеть	ru_RU
dc.subject	система поиска	ru_RU
dc.subject	speech recognition	en_GB
dc.subject	speech dataset	en_GB
dc.subject	DNN	en_GB
dc.subject	RNN	en_GB
dc.subject	speech search	en_GB
dc.title	Development of speech recognition system for indexing and searching in a big collection of mediafiles	en_GB
dc.title.alternative	Разработка системы распознавания речи для индексирования и поиска в большой коллекции медиафайлов	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Diploma22May18-2.pdf	Article	2,15 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_stt08684_SHHegoleva_Nadezhda_Lvovna_(reviewer)(Ru).txt	ReviewRev	3,82 kB	Text	Просмотреть/Открыть
reviewSV_st007810_Degtyarev_Aleksandr_Borisovich_(supervisor)(Ru).txt	ReviewSV	3,54 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета