Sentiment analysis methods of restaurant customer reviews

Шепелев Павел Леонидович; Sepelev Pavel Leonidovic

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/26499

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Давыденко Александр Александрович	ru_RU
dc.contributor.advisor	Davydenko Aleksandr Aleksandrovic	en_GB
dc.contributor.author	Шепелев Павел Леонидович	ru_RU
dc.contributor.author	Sepelev Pavel Leonidovic	en_GB
dc.contributor.editor	Блеканов Иван Станиславович	ru_RU
dc.contributor.editor	Blekanov Ivan Stanislavovic	en_GB
dc.date.accessioned	2021-03-24T15:50:59Z	-
dc.date.available	2021-03-24T15:50:59Z	-
dc.date.issued	2020
dc.identifier.other	054714	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/26499	-
dc.description.abstract	Работа посвящена исследованию существующих методов анализа тональности русскоязычных текстов. Для исследования был собран корпус русскоязычных отзывов на рестораны. Каждый отзыв должен быть классифицирован как объект одного из трех классов: положительный, отрицательный или нейтральный. Рассмотрены различные способы предобработки текстов. В качестве признаков рассматривались различные комбинации n-грамм. Реализованы следующие алгоритмы машинного обучения: наивный байесовский классификатор, логистическая регрессия, AdaBoost классификатор, метод стохастического градиента и метод опорных векторов. Для решения проблемы несбалансированных классов данных использовался алгоритм SMOTE. После проверки на кросс-валидации лучшее качество классификации показал алгоритм логистическая регрессия. Качество классификации было улучшено с помощью добавления n-грамм и применения алгоритма SMOTE к обучающему множеству.	ru_RU
dc.description.abstract	The work is devoted to the study of existing methods of sentiment analysis of Russian-language texts. For the study, a corpus of Russian-language restaurant reviews was collected. Each review should be classified as an object of one of three classes: positive, negative or neutral. Various ways of text preprocessing were considered. Various combinations of n-grams were considered as features. The following machine learning algorithms were implemented: naive bayes classifier, logistic regression, AdaBoost classifier, stochastic gradient method and support vector machine. To solve the problem of unbalanced data classes, SMOTE algorithm was used. After cross-validation, the best quality classification was shown by the logistic regression algorithm. Classification quality was improved by adding n-grams and applying SMOTE algorithm to the training set.	en_GB
dc.language.iso	ru
dc.subject	анализ тональности	ru_RU
dc.subject	сентимент анализ	ru_RU
dc.subject	анализ мнений	ru_RU
dc.subject	тональность отзывов	ru_RU
dc.subject	отзывы пользователей	ru_RU
dc.subject	обработка текста	ru_RU
dc.subject	обработка естественного языка	ru_RU
dc.subject	машинное обучение	ru_RU
dc.subject	sentiment analysis	en_GB
dc.subject	opinion mining	en_GB
dc.subject	sentiment of reviews	en_GB
dc.subject	customer reviews	en_GB
dc.subject	text processing	en_GB
dc.subject	natural language processing	en_GB
dc.subject	machine learning	en_GB
dc.title	Sentiment analysis methods of restaurant customer reviews	en_GB
dc.title.alternative	Методы анализа тональности отзывов пользователей ресторанов	ru_RU
Располагается в коллекциях:	BACHELOR STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
st054714.pdf	Article	463,68 kB	Adobe PDF	Просмотреть/Открыть
reviewSV_Otzyv_Sepelev.pdf	ReviewSV	83,22 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета