Automatic classification of Reuters news corpus into IPTC taxonomy

Abstract

В этой работе предлагаются алгоритмы для автоматической классификации новостей в таксономию медиа-тематик IPTC, которая представляет собой иерархическую структуру классов. В качестве тестовой коллекции используется корпус новостей Reuters-21578. Особенностью работы является отсутствие обучающей выборки, поэтому для решения задачи нельзя воспользоваться стандартными методами классификации. По этой причине в работе были применены два подхода: выделение групп схожих документов при помощи кластеризации методом k-средних и выделение скрытых тем, используя латентное размещение Дирихле. Для того, чтобы сопоставить группы документов предварительно заданным классам, описания классов расширяются при помощи поисковой машины, и затем находится класс, ближайший к группе документов. Для оценки качества классификации используется экспертная оценка. Эксперимент показал, что алгоритм, основанный на k-means дает неплохие результаты по формированию документов в классы. Дальнейшие модификации этого алгоритма могут оказаться весьма полезными для новостных агентств и агрегаторов.
In this paper we propose algorithms for automatic classification news items into the IPTC Media Topics taxonomy, which is a hierarchical structure of classes. As a test collection are used the news corpus Reuters-21578. A feature of this work is the lack of training set, so to solve the problem the standard classifiers can not be used. For this reason we used two approaches: creation groups of documents by k-means clustering and another one is selection latent document’s topics by latent Dirichlet allocation. In order to compare clusters to predefined classes, class definitions are extended using a search engine, and then calculated class, which is the nearest to group of documents. To assess the quality of the classification we used human review. The experiment showed that the algorithm based on k-means gave a correct result for the formation documents’ classes. Further modifications of the algorithm can be very useful for news agencies and aggregators.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By