Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/4082
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.advisorПопова Светлана Владимировнаru_RU
dc.contributor.authorСеребрякова Маргарита Владимировнаru_RU
dc.contributor.authorSerebriakova Margaritaen_GB
dc.contributor.editorмагистр С.В. Поповаru_RU
dc.contributor.editorS.V. Popovaen_GB
dc.date.accessioned2016-10-10T02:12:03Z-
dc.date.available2016-10-10T02:12:03Z-
dc.date.issued2016
dc.identifier.other010900en_GB
dc.identifier.urihttp://hdl.handle.net/11701/4082-
dc.description.abstractАннотация к диплому В данной исследовательской работе рассматривается проблема автоматической обработки и классификации текстовых документов в рамках определённой предметной области. Цель работы заключается в создании аппарата автоматической классификации научных (в первую очередь конкурсных) объявлений по заранее определённым классам. Для достижения поставленной цели решаются следующие задачи: 1. Анализ значительного числа документов для определения категорий, которые могут быть интересны пользователю (например, для кого сделано объявление, тип объявления, возрастная группы и т.д.). Данные категории в дальнейшем должны позволить пользователи выбирать в каждой категории только те классы, объявления в которых ему будут интересны. А также определение классов внутри каждой из категорий. 2. Разработка тестовой и обучающей коллекций на основе определённых категорий и классов. 3. Изучение подходов к обработке естественно языка и задачи классификации, выбор стратегии обработки данных. 4. Разработка программы для проведения исследовательских экспериментов 5. Сравнение двух алгоритмов классификации и выбор наиболее подходящего. 6. Изучение влияния использования различных частей речи для представления текстов на решение поставленной задачи классификации. Для решения указанных задач предложено использовать программный пакет алгоритмов машинного обучения Weka. На основе полученных результатов выбраны наиболее эффективные стратегии для определения классов объявлений.ru_RU
dc.description.abstractThe diploma work deals with the problem of automatic processing and classification of text documents within a certain subject domain. The purpose of the work involves equipment manufacturing for automatic classification scientific (first of all competitive) announcements on in advance defined classes. To achieve the goals the following tasks have been solved: 1. The analysis of a considerable number of documents to define categories that can be interesting for a user (for example a target audience of an announcement, announcement type, age groups, etc.). These will be able to let a user choose only the classes in which announcements are interesting to him and definition of classes in each of categories. 2. Development of the test and training collections on the basis of certain categories and classes. 3. Research of approaches in natural language processing and study of a problem of classification, the data processing strategy choice. 4. Development of the program to carry out research experiments 5. Comparing two algorithms of classification and choosing the most suitable. 6. Studying the influence of usage the various parts of speech for submission of texts on the solution of an objective of classification. It is offered to use a software algorithm package of machine training named “Weka” to solve the specified tasks. On the basis of the received results the most effective strategy for definition of classes of announcements have been chosen.en_GB
dc.language.isoru
dc.subjectмашинное обучениеru_RU
dc.subjectклассификацияru_RU
dc.subjectmachiine learningen_GB
dc.subjectclassificationen_GB
dc.titleProcessing news reports in scientific areaen_GB
dc.title.alternativeОбработка новостных сообщений в научной областиru_RU
Располагается в коллекциях:BACHELOR STUDIES



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.