Automatic identification of sociolinguistic data based on the texts of diaries of the "Prozhito" project
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Настоящее исследование посвящено составлению социолингвистического портрета авторов текстов через предсказание скрытых демографических атрибутов, таких как гендер, возраст и временной период создания записи, с использованием методов машинного и глубинного обучения. Материалом исследования являются дневниковые записи проекта «Прожито» – цифрового архива личных документов.
Цель исследования – подбор наиболее точных алгоритмов для предсказания гендера, возрастных групп и времени создания текста на основе анализа дневниковых записей. Объектом является связь языковых особенностей и демографических признаков, предметом - их анализ. Поставленные задачи исследования включают систематический анализ социолингвистического портрета через изучение дневниковых записей и их характеристик; изучение существующих решений в области классификации текстов; сбор и предобработку корпуса; осуществление сравнительного анализа различных методов выделения признаков и архитектур моделей для определения наилучших подходов; анализ эффективности моделей и оценка их производительности; подготовка выводов о точности работы скрытых демографических атрибутов по тексту и о подходящих алгоритмах для их предсказания.
В работе использовались методы моделирования для построения алгоритмов, эксперимента для проверки эффективности моделей, сравнения различных подходов, статистического и социолингвистического анализа, метод научного описания.
Новизна работы заключается в применении комплексного подхода к моделированию и анализу языка в дневниковых записях. Исследование выявило важные корреляции между языковыми особенностями и демографическими признаками авторов и показало высокую точность моделей, особенно логистической регрессии и рекуррентных нейронных сетей в сочетании с архитектурой CNN1D.
Практическая значимость работы состоит в создании моделей для предсказания демографических атрибутов, применимых в различных областях, от социологии до маркетинга и судебных экспертиз. Результаты важны для программ сохранения исторических и культурных текстов и способствуют более глубокому пониманию языковых вариаций и социальных различий.
This study is dedicated to creation a sociolinguistic profile of text authors through the prediction of hidden demographic attributes, such as gender, age, and the time period of text creation, using machine and deep learning methods. The research material consists of diary entries from the "Prozhito" project – a digital archive of personal documents. The goal of the study is to select the most accurate algorithms for predicting gender, age groups, and the time of text creation based on the analysis of diary entries. The object of the study is the connection between linguistic features and demographic attributes, and the subject is their analysis. The research tasks include a systematic analysis of the sociolinguistic profile through the study of diary entries and their characteristics; a review of existing solutions in the field of text classification; the collection and preprocessing of the corpus; a comparative analysis of various feature extraction methods and model architectures to determine the best approaches; an analysis of model performance and evaluation of their effectiveness; and the preparation of conclusions on the accuracy of hidden demographic attribute prediction from text and the suitable algorithms for such predictions. The study employed modeling methods for algorithm development, experiments to test model efficacy, comparisons of different approaches, statistical and sociolinguistic analysis, and the scientific description method. The novelty of the work lies in the application of a comprehensive approach to modeling and analyzing language in diary entries. The research identified significant correlations between linguistic features and demographic attributes of the authors and demonstrated high model accuracy, especially using logistic regression and recurrent neural networks combined with a CNN1D architecture. The practical significance of the work lies in the development of models for predicting demographic attributes that can be applied in various fields, from sociology to marketing and forensic examinations. The results are important for programs aimed at preserving historical and cultural texts and contribute to a deeper understanding of linguistic variations and social differences.
This study is dedicated to creation a sociolinguistic profile of text authors through the prediction of hidden demographic attributes, such as gender, age, and the time period of text creation, using machine and deep learning methods. The research material consists of diary entries from the "Prozhito" project – a digital archive of personal documents. The goal of the study is to select the most accurate algorithms for predicting gender, age groups, and the time of text creation based on the analysis of diary entries. The object of the study is the connection between linguistic features and demographic attributes, and the subject is their analysis. The research tasks include a systematic analysis of the sociolinguistic profile through the study of diary entries and their characteristics; a review of existing solutions in the field of text classification; the collection and preprocessing of the corpus; a comparative analysis of various feature extraction methods and model architectures to determine the best approaches; an analysis of model performance and evaluation of their effectiveness; and the preparation of conclusions on the accuracy of hidden demographic attribute prediction from text and the suitable algorithms for such predictions. The study employed modeling methods for algorithm development, experiments to test model efficacy, comparisons of different approaches, statistical and sociolinguistic analysis, and the scientific description method. The novelty of the work lies in the application of a comprehensive approach to modeling and analyzing language in diary entries. The research identified significant correlations between linguistic features and demographic attributes of the authors and demonstrated high model accuracy, especially using logistic regression and recurrent neural networks combined with a CNN1D architecture. The practical significance of the work lies in the development of models for predicting demographic attributes that can be applied in various fields, from sociology to marketing and forensic examinations. The results are important for programs aimed at preserving historical and cultural texts and contribute to a deeper understanding of linguistic variations and social differences.
Description
Keywords
Классификация текстов, социолингвистика, социолингвистический портрет, дневниковые записи, машинное обучение, глубинное обучение, векторизация текстов, мешок слов (Bag of Words), эмбеддинги, предобработка текстов, логистическая регрессия, наивный байесовский классификатор, сверточные нейронные сети, рекуррентные нейронные сети, лингвистический анализ, предсказание гендера автора, предсказание возрастной группы автора, предсказание временного периода создания текста, Text Classification, Sociolinguistics, Sociolinguistic Profile, Diary Entries, Machine Learning, Deep Learning, Text Vectorization, Bag of Words, Word Embeddings, Text Preprocessing, Logistic Regression, Naive Bayes Classifier, Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Linguistic Analysis, Gender Prediction of the Author, Age Group Prediction of the Author, Temporal Period Prediction of the Text Creation