A study of segmentation parameters in statistical machine translation from Arabic into Russian

Бань Дмитрий Юрьевич; Ban Dmitrii

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/2822

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Митренина Ольга Владимировна	ru_RU
dc.contributor.author	Бань Дмитрий Юрьевич	ru_RU
dc.contributor.author	Ban Dmitrii	en_GB
dc.contributor.editor	кандидат филологических наук, доцент О.В. Митренина	ru_RU
dc.contributor.editor	Candidate of Philology, Associate Professor O. Mitrenina	en_GB
dc.date.accessioned	2016-08-31T12:38:48Z	-
dc.date.available	2016-08-31T12:38:48Z	-
dc.date.issued	2016
dc.identifier.other	024808	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/2822	-
dc.description.abstract	Статистический машинный перевод успешно применяется для перевода с арабского на русский язык. Однако, дополнение таких статистических систем лингвистической информацией еще недостаточно изучено. Наша идея заключается в том, что морфологическая сегментация арабских текстов может улучшить качество перевода. Это может происходить потому, что в арабском языке некоторые служебные части речи имеют тенденцию записываться слитно с другими словами, в отличие от русского. В этой работе мы, во-первых, рассмотрели процесс статистического машинного перевода. Затем, было предложено несколько схем для сегментации арабских текстов. После этого, с помощью системы Moses были обучены соответствующие модели перевода. В завершение, мы оценили результаты каждой из этих моделей на тестовом корпусе. В результате, для лучшей схемы мы получили улучшение в 0,95 пунктов BLEUScore.	ru_RU
dc.description.abstract	Statistical machine translation (SMT) is successfully applied to the Arabic-Russian language pair. However, there is not much research about incorporation of linguistic information into such statistical systems. Our idea is that morphological segmentation of Arabic texts can benefit the accuracy and fluency of translation. The rationale behind this hypothesis is that Arabic tends to attach some functional words to other ones, what is not the case in Russian. In this paper, we firstly contemplate the process of statistical machine translation. Then, we suggest some schemes to segment Arabic texts. After that, we train SMT models using the Moses framework. Finally, performance of each model is evaluated on the testing set. As a result, we achieve 0.95 BLEUScore points improvement for the best of the schemes.	en_GB
dc.language.iso	ru
dc.subject	Статистический машинный перевод	ru_RU
dc.subject	обработка естественного языка	ru_RU
dc.subject	морфологическая сегментация	ru_RU
dc.subject	Statistical machine translation	en_GB
dc.subject	natural language processing	en_GB
dc.subject	morphological segmentation	en_GB
dc.title	A study of segmentation parameters in statistical machine translation from Arabic into Russian	en_GB
dc.title.alternative	Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Issledovanie_parametrov_segmentacii_pri_statisticheskom_mashinnom_perevode_s_arabskogo_na_russkij_yazyk.docx	Article	170,99 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_st005606_Mitrenina_Olga_Vladimirovna_(supervisor)(Ru).txt	ReviewSV	3,07 kB	Text	Просмотреть/Открыть
reviewSV_Ban_DYU_mag_rec.pdf	ReviewRev	1,63 MB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета