Automatic identification of sociolinguistic data based on the texts of diaries of the "Prozhito" project

Abstract

Настоящее исследование посвящено составлению социолингвистического портрета авторов текстов через предсказание скрытых демографических атрибутов, таких как гендер, возраст и временной период создания записи, с использованием методов машинного и глубинного обучения. Материалом исследования являются дневниковые записи проекта «Прожито» – цифрового архива личных документов. Цель исследования – подбор наиболее точных алгоритмов для предсказания гендера, возрастных групп и времени создания текста на основе анализа дневниковых записей. Объектом является связь языковых особенностей и демографических признаков, предметом - их анализ. Поставленные задачи исследования включают систематический анализ социолингвистического портрета через изучение дневниковых записей и их характеристик; изучение существующих решений в области классификации текстов; сбор и предобработку корпуса; осуществление сравнительного анализа различных методов выделения признаков и архитектур моделей для определения наилучших подходов; анализ эффективности моделей и оценка их производительности; подготовка выводов о точности работы скрытых демографических атрибутов по тексту и о подходящих алгоритмах для их предсказания. В работе использовались методы моделирования для построения алгоритмов, эксперимента для проверки эффективности моделей, сравнения различных подходов, статистического и социолингвистического анализа, метод научного описания. Новизна работы заключается в применении комплексного подхода к моделированию и анализу языка в дневниковых записях. Исследование выявило важные корреляции между языковыми особенностями и демографическими признаками авторов и показало высокую точность моделей, особенно логистической регрессии и рекуррентных нейронных сетей в сочетании с архитектурой CNN1D. Практическая значимость работы состоит в создании моделей для предсказания демографических атрибутов, применимых в различных областях, от социологии до маркетинга и судебных экспертиз. Результаты важны для программ сохранения исторических и культурных текстов и способствуют более глубокому пониманию языковых вариаций и социальных различий.
This study is dedicated to creation a sociolinguistic profile of text authors through the prediction of hidden demographic attributes, such as gender, age, and the time period of text creation, using machine and deep learning methods. The research material consists of diary entries from the "Prozhito" project – a digital archive of personal documents. The goal of the study is to select the most accurate algorithms for predicting gender, age groups, and the time of text creation based on the analysis of diary entries. The object of the study is the connection between linguistic features and demographic attributes, and the subject is their analysis. The research tasks include a systematic analysis of the sociolinguistic profile through the study of diary entries and their characteristics; a review of existing solutions in the field of text classification; the collection and preprocessing of the corpus; a comparative analysis of various feature extraction methods and model architectures to determine the best approaches; an analysis of model performance and evaluation of their effectiveness; and the preparation of conclusions on the accuracy of hidden demographic attribute prediction from text and the suitable algorithms for such predictions. The study employed modeling methods for algorithm development, experiments to test model efficacy, comparisons of different approaches, statistical and sociolinguistic analysis, and the scientific description method. The novelty of the work lies in the application of a comprehensive approach to modeling and analyzing language in diary entries. The research identified significant correlations between linguistic features and demographic attributes of the authors and demonstrated high model accuracy, especially using logistic regression and recurrent neural networks combined with a CNN1D architecture. The practical significance of the work lies in the development of models for predicting demographic attributes that can be applied in various fields, from sociology to marketing and forensic examinations. The results are important for programs aimed at preserving historical and cultural texts and contribute to a deeper understanding of linguistic variations and social differences.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By