Планируемые направления применения разработки:
- Выявление информационных трендов в интересах целевой аудитории;
- Выявление популярных сообществ;
- Выделение отдельных областей интересов таких как спорт, музыка, образование и т. д. а также специфических областей: девиации, экстремизм, благотворительность;
- Определение лидеров мнений;
- Изучение особенностей взаимодействия с интернет-контентом отдельных категорий (подростки, молодежь);
- Разработки концептуальной модели особенностей взаимодействия с интернет-контентом отдельных категорий пользователей на основе анализа результатов проведенного исследования;
- Формирование рекомендаций с целью определения основных векторов повышения просоциальной направленности взаимодействия с интернет-контентом у изученных категорий пользователей.
Кейс
На основании построенной модели машинного обучения были спрогнозированы индексы для 1 078 225 релевантных и активных пользователей по выбранным регионам. Отметим, что в Томской области доля пользователей с низким уровнем благополучия выше по всем Индексам, чем в других регионах. Наибольшее количество пользователей с высокими уровнями благополучия по всем индексам демонстрируют Москва и Нижний Новгород. В целом, во всех регионах количество пользователей с высоким значением индекса благополучия превалирует над низким, исключение составляет Индекс 5 у людей, проживающих в Томской области и Севастополе, где, наоборот, с низким уровнем индекса людей больше. Методика прогнозирование психологических характеристик для всей целевой аудитории региона, на основе выявленных у контрольной группы респондентов взаимосвязей между уровнем индекса благополучия и подписками пользователей имеет несколько ограничений. Во-первых, она может применяться только к части населения региона, являющейся пользователями «ВКонтакте» и оставляющей достаточное для анализа количество пользовательских данных. Например, для возрастной группы 14-25 лет, это только 36% от найденных аккаунтов пользователей в социальной сети, что соответствует в среднем 44% от фактической численности населения (Тюменская область 13%, Томская область 36%, Воронежская область 34%, Нижегородская и Московская область 63%, Севастополь - нет данных фактической численности населения 14-25 лет). Тем не менее определение уровня благополучия даже для такой доли населения региона является более репрезентативным, чем традиционные методы социологических и психодиагностических исследований, охватывающих несколько процентов от генеральной совокупности. Так для 5 регионов доля респондентов, принявших участие в исследовании, составила в среднем 0,53% от численности фактического населения (Тюменская область 0,29%, Томская область 1,07%, Воронежская область 0,76%, Нижегородская и Московская область 0,01%, Севастополь - нет данных фактической численности населения 14-25 лет). Во-вторых, ограничением методики прогнозирования является её погрешность (F-мера 0,65-0,75). Это означает, что истинный прогноз рассчитывается не более чем для 75% целевой аудитории. Но применение этой модели для расчёта соотношения молодых людей с высоким и низким уровнем благополучия в регионе можно считать репрезентативным, т.к. погрешность прогнозирования (0,25-0,35) значительно ниже выявленным дисбалансом между количеством людей с высоким и низким уровнем благополучия (от 1,9 до 5 раза в зависимости от индекса и региона).
В результате исследования удалось установить статистически значимую зависимость между уровнем индекса благополучия и подписками пользователей. Это позволяет прогнозировать с относительно невысокой погрешностью уровни индексов благополучия для молодежи не проходившей специальную диагностику. Разработанная прогнозная модель позволяет решать задачи выявления людей с высоким или низким индексом, а также рассчитывать индексы благополучия для региона в целом через обобщение данных о индексах населения этого региона. Решение этих задач может обеспечить избирательную информационную политику на аудитории с высоким и низким индексом благополучия через инструменты SMM, а также предложить для системы оценки социально-экономического развития региона дополнительные индикаторы, использовать их для принятия решений в сфере социальной политики.
Условия эксперимента и данные:
В шести регионах проводилось тестирование психоэмоционального состояния респондентов в возрасте от 14 до 25 лет. После опроса были собраны данные 12 465 участников. Отметим, что после фильтрации закрытых, а также заблокированных аккаунтов, пользователей, у которых заполнены все необходимые поля профиля осталось 7 798.
Далее для прогнозирования и анализа целевой аудитории, не прошедшей тестирование требовалось выгрузить большие массивы данных (порядка 3 млн. пользователей). В рамках исследования произведена выгрузка «цифрового следа» профилей молодых людей в возрасте от 14 до 25 лет, которые были разделены на две возрастные категории («14-18» и «19-25») с помощью «Портала по работе с данными социальных сетей» НИ Томского государственного университета. В результате поиска пользователей обозначенных возрастных групп в регионах, а также отсева от ботов, выгружен «цифровой след» 3 003 750 профилей пользователей.