Study on machine learning methods for text summarization

Илямакова Наталья Юрьевна; Iliamakova Natalia

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/13632

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Сизанов Алексей Владимирович	ru_RU
dc.contributor.author	Илямакова Наталья Юрьевна	ru_RU
dc.contributor.author	Iliamakova Natalia	en_GB
dc.contributor.editor	Добрынин Владимир Юрьевич	ru_RU
dc.contributor.editor	Dobrynin Vladimir Iurevich	en_GB
dc.date.accessioned	2018-07-26T15:26:29Z	-
dc.date.available	2018-07-26T15:26:29Z	-
dc.date.issued	2018	-
dc.identifier.other	040242	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/13632	-
dc.description.abstract	Задача автоматического реферирования приобрела особую актуальность в наши дни, в эпоху развития современных цифровых технологий, когда объемы данных безостановочно растут. В данной работе рассмотрен такой подход к реферированию, как извлечение из текстов наиболее важных предложений. Важность предложения складывалась из важности входящих в него слов. Для подсчета полезности (важности) слова использовалась такая мера, как взаимная информация между словом и кластером. Кроме того рассматривались и сравнивались два метода кластеризации: Information Bottleneck и К-средних. На основе различных подходов был разработан алгоритм для автоматического реферирования текста, а затем с помощью полученного алгоритма строились рефераты к текстовым документам и сравнивались с "идеальными" рефератами и рефератами, построенными другими системами.	ru_RU
dc.description.abstract	The task of text summarization has acquired a special urgency in our days, in the era of the development of modern digital technologies, when the volume of data is continuously growing. In this work, such an approach to abstracting as extracting from the texts of the most important sentences are considered. The importance of the sentence was made up of the importance of words entering into it.To calculate the usefulness (importance) of the word, a measure was used such as the mutual information between the word and the cluster. In addition, two clustering methods were considered and compared: Information Bottleneck and K-means. Based on various approaches, an algorithm was developed for automatic text summarization, and then, using the algorithm, text documents were summarized and the summaries were compared with "ideal" summaries and summaries constructed by other systems.	en_GB
dc.language.iso	ru	-
dc.subject	Реферирование документов	ru_RU
dc.subject	взаимная информация	ru_RU
dc.subject	кластеризация	ru_RU
dc.subject	Text summarization	en_GB
dc.subject	Information Bottlenec	en_GB
dc.subject	mutual informatiom	en_GB
dc.subject	clustering	en_GB
dc.title	Study on machine learning methods for text summarization	en_GB
dc.title.alternative	Исследование методов машинного обучения для автоматического реферирования документов	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
VKR_Ilyamakova_Natalya.pdf	Article	698,08 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_review_eng.docx	ReviewRev	2,32 MB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_recenziya.docx	ReviewRev	2,32 MB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_stt08162_Sizanov_Aleksej_Vladimirovich_(reviewer)(En).txt	ReviewRev	1,13 kB	Text	Просмотреть/Открыть
reviewSV_stt08162_Sizanov_Aleksej_Vladimirovich_(reviewer)(Ru).txt	ReviewRev	2,05 kB	Text	Просмотреть/Открыть
reviewSV_st006729_Dobrynin_Vladimir_YUrevich_(supervisor)(Ru).txt	ReviewSV	3,59 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета