Processing news reports in scientific area

Серебрякова Маргарита Владимировна; Serebriakova Margarita

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/4082

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Попова Светлана Владимировна	ru_RU
dc.contributor.author	Серебрякова Маргарита Владимировна	ru_RU
dc.contributor.author	Serebriakova Margarita	en_GB
dc.contributor.editor	магистр С.В. Попова	ru_RU
dc.contributor.editor	S.V. Popova	en_GB
dc.date.accessioned	2016-10-10T02:12:03Z	-
dc.date.available	2016-10-10T02:12:03Z	-
dc.date.issued	2016
dc.identifier.other	010900	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/4082	-
dc.description.abstract	Аннотация к диплому В данной исследовательской работе рассматривается проблема автоматической обработки и классификации текстовых документов в рамках определённой предметной области. Цель работы заключается в создании аппарата автоматической классификации научных (в первую очередь конкурсных) объявлений по заранее определённым классам. Для достижения поставленной цели решаются следующие задачи: 1. Анализ значительного числа документов для определения категорий, которые могут быть интересны пользователю (например, для кого сделано объявление, тип объявления, возрастная группы и т.д.). Данные категории в дальнейшем должны позволить пользователи выбирать в каждой категории только те классы, объявления в которых ему будут интересны. А также определение классов внутри каждой из категорий. 2. Разработка тестовой и обучающей коллекций на основе определённых категорий и классов. 3. Изучение подходов к обработке естественно языка и задачи классификации, выбор стратегии обработки данных. 4. Разработка программы для проведения исследовательских экспериментов 5. Сравнение двух алгоритмов классификации и выбор наиболее подходящего. 6. Изучение влияния использования различных частей речи для представления текстов на решение поставленной задачи классификации. Для решения указанных задач предложено использовать программный пакет алгоритмов машинного обучения Weka. На основе полученных результатов выбраны наиболее эффективные стратегии для определения классов объявлений.	ru_RU
dc.description.abstract	The diploma work deals with the problem of automatic processing and classification of text documents within a certain subject domain. The purpose of the work involves equipment manufacturing for automatic classification scientific (first of all competitive) announcements on in advance defined classes. To achieve the goals the following tasks have been solved: 1. The analysis of a considerable number of documents to define categories that can be interesting for a user (for example a target audience of an announcement, announcement type, age groups, etc.). These will be able to let a user choose only the classes in which announcements are interesting to him and definition of classes in each of categories. 2. Development of the test and training collections on the basis of certain categories and classes. 3. Research of approaches in natural language processing and study of a problem of classification, the data processing strategy choice. 4. Development of the program to carry out research experiments 5. Comparing two algorithms of classification and choosing the most suitable. 6. Studying the influence of usage the various parts of speech for submission of texts on the solution of an objective of classification. It is offered to use a software algorithm package of machine training named “Weka” to solve the specified tasks. On the basis of the received results the most effective strategy for definition of classes of announcements have been chosen.	en_GB
dc.language.iso	ru
dc.subject	машинное обучение	ru_RU
dc.subject	классификация	ru_RU
dc.subject	machiine learning	en_GB
dc.subject	classification	en_GB
dc.title	Processing news reports in scientific area	en_GB
dc.title.alternative	Обработка новостных сообщений в научной области	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
VKR.docx	Article	202,28 kB	Microsoft Word XML	Просмотреть/Открыть
reviewSV_st008177_Popova_Svetlana_Vladimirovna_(supervisor)(Ru).txt	ReviewSV	8,62 kB	Text	Просмотреть/Открыть
reviewSV_st008177_Popova_Svetlana_Vladimirovna_(reviewer)(Ru).txt	ReviewRev	6,01 kB	Text	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета