Using contextual document clustering algorithm for clustering pages and users without using page content

Горбатюк Анна Витальевна; Gorbatiuk Anna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/3976

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Добрынин Владимир Юрьевич	ru_RU
dc.contributor.author	Горбатюк Анна Витальевна	ru_RU
dc.contributor.author	Gorbatiuk Anna	en_GB
dc.contributor.editor	кандидат физико-математических наук, доцент В.Ю. Добрынин	ru_RU
dc.contributor.editor	Candidate of Physics and Mathematics, Associate Professor V.Iu. Dobrynin	en_GB
dc.date.accessioned	2016-10-10T02:11:12Z	-
dc.date.available	2016-10-10T02:11:12Z	-
dc.date.issued	2016
dc.identifier.other	010215	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/3976	-
dc.description.abstract	В данной работе рассматривается применение алгоритма контекстной документной кластеризации для кластеризации ссылок и пользователей, которые посетили эти ссылки. В отличие от классического применения алгоритма для документов, в которых слова имеют определенный смысл, в данной работе будут рассматриваться документы, словами в которых будут идентификационные номера пользователей или ссылки, а значит контент страниц использоваться не будет. Подход основан на поиске узких контекстов, которые являются основой для создания кластеров. Вычисляя расстояние Йенсена-Шеннона можно определить принадлежность документа к кластеру. Такого рода кластеризация может быть полезной в задачах информационного поиска, связанных с анализом и поиском данных, web-рекламой.	ru_RU
dc.description.abstract	In this work we consider contextual document clustering algorithm used for clustering of links and users who visited this links. In contrast to the classical application of the algorithm for documents, which contain words with certain meaning, in this work we consider documents, which contain unique identification numbers of users or links as words. It means that we do not use content of pages. This approach is based on searching of narrow contexts, which are bases for clusters. Calculating Jensen-Shannon divergence we can determine the identity of document for cluster. This clustering can be useful in such tasks of information retrieval as search and analysis of data and web-advertising tasks.	en_GB
dc.language.iso	ru
dc.subject	Кластеризация	ru_RU
dc.subject	контекст	ru_RU
dc.subject	документ	ru_RU
dc.subject	слово	ru_RU
dc.subject	аттрактор	ru_RU
dc.subject	кластер	ru_RU
dc.subject	распределение	ru_RU
dc.subject	вероятность	ru_RU
dc.subject	Clustering	en_GB
dc.subject	context	en_GB
dc.subject	document	en_GB
dc.subject	word	en_GB
dc.subject	attractor	en_GB
dc.subject	cluster	en_GB
dc.subject	distribution	en_GB
dc.subject	probability	en_GB
dc.title	Using contextual document clustering algorithm for clustering pages and users without using page content	en_GB
dc.title.alternative	Использование алгоритма контекстной кластеризации документов для кластеризации страниц и посещающих их пользователей без использования контента страниц	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
st010215.docx	Article	379,21 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_st006729_Dobrynin_Vladimir_YUrevich_(supervisor)(Ru).txt	ReviewSV	2,84 kB	Text	Просмотреть/Открыть
reviewSV_st006729_Dobrynin_Vladimir_YUrevich_(reviewer)(Ru).txt	ReviewRev	3,58 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета