Проекты_наука и образование

Разрабатываем алгоритмы прогнозирования психологических характеристик на основе анализа цифровых следов

В рамках проекта осуществляется идентификация аккаунтов молодежи (14-25 лет) в социальной сети «ВКонтакте» (https://vk.com/) в городах, которые являются площадками для проведения психологического тестирования школьников и студентов (Москва, Томск, Тюмень, Севастополь, Воронеж, Нижний Новгород). На основе полученных данных будут сопоставлены типологические портреты для целевой аудитории по разным сегментам (регион, возраст, пол и т.д.) и по разным характеристикам (онлайн активность, публикационная активность, структура сети связей (друзей), миграционные тренды и т.д.).
Планируемые направления применения разработки: 
  • Выявление информационных трендов в интересах целевой аудитории;
  • Выявление популярных сообществ;
  • Выделение отдельных областей интересов таких как спорт, музыка, образование и т. д. а также специфических областей: девиации, экстремизм, благотворительность;
  • Определение лидеров мнений;
  • Изучение особенностей взаимодействия с интернет-контентом отдельных категорий (подростки, молодежь);     
  • Разработки концептуальной модели особенностей взаимодействия с интернет-контентом отдельных категорий пользователей на основе анализа результатов проведенного исследования;
  • Формирование рекомендаций с целью определения основных векторов повышения просоциальной направленности взаимодействия с интернет-контентом у изученных категорий пользователей. 

Кейс
На основании построенной модели машинного обучения были спрогнозированы индексы для 1 078 225 релевантных и активных пользователей по выбранным регионам. Отметим, что в Томской области доля пользователей с низким уровнем благополучия выше по всем Индексам, чем в других регионах. Наибольшее количество пользователей с высокими уровнями благополучия по всем индексам демонстрируют Москва и Нижний Новгород. В целом, во всех регионах количество пользователей с высоким значением индекса благополучия превалирует над низким, исключение составляет Индекс 5 у людей, проживающих в Томской области и Севастополе, где, наоборот, с низким уровнем индекса людей больше. Методика прогнозирование психологических характеристик для всей целевой аудитории региона, на основе выявленных у контрольной группы респондентов взаимосвязей между уровнем индекса благополучия и подписками пользователей имеет несколько ограничений. Во-первых, она может применяться только к части населения региона, являющейся пользователями «ВКонтакте» и оставляющей достаточное для анализа количество пользовательских данных. Например, для возрастной группы 14-25 лет, это только 36% от найденных аккаунтов пользователей в социальной сети, что соответствует в среднем 44% от фактической численности населения (Тюменская область 13%, Томская область 36%, Воронежская область 34%, Нижегородская и Московская область 63%, Севастополь - нет данных фактической численности населения 14-25 лет). Тем не менее определение уровня благополучия даже для такой доли населения региона является более репрезентативным, чем традиционные методы социологических и психодиагностических исследований, охватывающих несколько процентов от генеральной совокупности. Так для 5 регионов доля респондентов, принявших участие в исследовании, составила в среднем 0,53% от численности фактического населения (Тюменская область 0,29%, Томская область 1,07%, Воронежская область 0,76%, Нижегородская и Московская область 0,01%, Севастополь - нет данных фактической численности населения 14-25 лет). Во-вторых, ограничением методики прогнозирования является её погрешность (F-мера 0,65-0,75). Это означает, что истинный прогноз рассчитывается не более чем для 75% целевой аудитории. Но применение этой модели для расчёта соотношения молодых людей с высоким и низким уровнем благополучия в регионе можно считать репрезентативным, т.к. погрешность прогнозирования (0,25-0,35) значительно ниже выявленным дисбалансом между количеством людей с высоким и низким уровнем благополучия (от 1,9 до 5 раза в зависимости от индекса и региона).
В результате исследования удалось установить статистически значимую зависимость между уровнем индекса благополучия и подписками пользователей. Это позволяет прогнозировать с относительно невысокой погрешностью уровни индексов благополучия для молодежи не проходившей специальную диагностику. Разработанная прогнозная модель позволяет решать задачи выявления людей с высоким или низким индексом, а также рассчитывать индексы благополучия для региона в целом через обобщение данных о индексах населения этого региона. Решение этих задач может обеспечить избирательную информационную политику на аудитории с высоким и низким индексом благополучия через инструменты SMM, а также предложить для системы оценки социально-экономического развития региона дополнительные индикаторы, использовать их для принятия решений в сфере социальной политики. 

Условия эксперимента и данные:
В шести регионах проводилось тестирование психоэмоционального состояния респондентов в возрасте от 14 до 25 лет. После опроса были собраны данные 12 465 участников. Отметим, что после фильтрации закрытых, а также заблокированных аккаунтов, пользователей, у которых заполнены все необходимые поля профиля осталось 7 798.
Далее для прогнозирования и анализа целевой аудитории, не прошедшей тестирование требовалось выгрузить большие массивы данных (порядка 3 млн. пользователей). В рамках исследования произведена выгрузка «цифрового следа» профилей молодых людей в возрасте от 14 до 25 лет, которые были разделены на две возрастные категории («14-18» и «19-25») с помощью «Портала по работе с данными социальных сетей» НИ Томского государственного университета. В результате поиска пользователей обозначенных возрастных групп в регионах, а также отсева от ботов, выгружен «цифровой след» 3 003 750 профилей пользователей.