Инфодемиологи предупреждают

Зоя Червонцева, аспирантка факультета биоинженерии и биоинформатики МГУ
Зоя Червонцева, аспирантка факультета биоинженерии и биоинформатики МГУ

Твиты, опубликованные в состоянии алкогольного опьянения, могут быть вычислены автоматически, а данные о местоположении пьянеющих пользователей помогут улучшить систему здравоохранения.

Распространение информации в Интернете часто сравнивают с распространением инфекций: «вирусное видео», «вирусный маркетинг», «медиа-вирусы». Но и самые настоящие физические заболевания тоже оставляют следы в социальных сетях. Область эпидемиологических исследований, использующих открытые интернет-данные, обретает всё большую популярность и даже получила отдельное название — инфодемиология.

Среди последних достижений инфодемиологии — определение послеродовой депрессии по изменению активности в Facebook [1] и предсказание того, когда пользователь заразится гриппом, основывающееся на анализе твитов его друзей и соседей [2]. Исследователи из Рочестер-ского университета применили методы инфодемиологии к процессу употребления алкоголя и представили ряд любопытных наблюдений [3].

В качестве исходных данных были взяты все посты соцсети Twitter за год, имеющие привязку к карте в Нью-Йорке или в округе Монро. Исследователям требовалось решить две основные задачи: выделить твиты, связанные с употреблением алкоголя, и определить, где именно пользователь употребляет — дома или нет, а если нет, то на каком расстоянии от дома.

Чтобы исключить абстрактные размышления об алкоголе, наблюдения за окружающими, воспоминания и планы на будущее, релевантные твиты определяли в три этапа. На первом этапе определялись записи, имеющие хоть какое-то отношение к алкоголю, дальше из них выбирались те, где речь идет об употреблении алкоголя непосредственно самим пользователем, и на третьей стадии из уже отобранных выбирались твиты, где употребление описывается в настоящем времени.

На каждой из стадий использовался один и тот же алгоритм машинного обучения — метод опорных векторов. Обучающие и тестовые выборки состояли из записей, проанализированных вручную, а в качестве параметров учитывалось, какие слова и смайлики содержит запись. Опечатки в анализе не учитывались — слово, написанное с ошибкой, засчитывалось так же, как и корректно написанное. Чувствительность и точность полученного автоматического метода оказались достаточно высокими — и то и другое было больше 82% на каждой из стадий.

Для решения второй задачи — определения, отправлен ли твит из дома, — также было использовано несколько соображений. Алгоритм машинного обучения учитывал, как часто пользователь пишет твиты из этого места, в какое время написан твит и не содержит ли он слов вроде «дом», «диван», «телевизор», «ванна» и т. п. Согласно оценкам, всё это позволило довольно точно оценить местоположение авторов твитов, в 80% случаев погрешность составила не более чем 100 м.

Далее на основе полученных данных составлялась тепловая карта плотности твитов о возлияниях и на той же карте отмечались точки продажи алкоголя. Выяснилось, что доля пользователей Twitter, пьющих дома, в городе выше, чем в пригороде. Это несмотря на то, что плотность баров в рассматриваемом городе Нью-Йорк значительно выше, чем в рассматриваемом пригороде — округе Монро. Там, если верить исследованию, значительная часть пользователей пьют на расстоянии больше километра от дома. В целом, доля пьющих пользователей в городе выше, и чем больше точек продажи алкоголя, тем выше плотность «пьяных» твитов на прилежащих территориях.

Do not let this bottle serve as an inspiration to call your exСоотношение полученных результатов с реальностью остается под большим вопросом. Во-первых, выборка — пользователи Twitter — сильно нерепрезентативна, известны перекосы по возрасту и социальному статусу. Во-вторых, непонятно направление причинно-следственных связей: много пьют, потому что много баров, или много баров, потому что много пьют. Работа имеет большую методическую ценность: из общедоступных данных при помощи методов машинного обучения, оказывается, можно получить правдоподобные оценки даже для такого нетривиального процесса, как употребление алкоголя. Использование уже готовых открытых данных значительно удешевляет исследование.

Авторы предполагают, что разработанный подход может быть использован для изучения социальных составляющих алкоголизма, а выясненные закономерности могут быть использованы для его предотвращения, — в тексте статьи даже упоминается Общество анонимных алкоголиков как пример организации, работающей с социальными факторами. Кроме того, авторы считают, что при помощи подобного подхода можно изучать распространение любых других скрытых состояний и выявлять «тифозных мэри» — скрытых носителей определенных заболеваний. Или убеждений. Все-таки идеи в чем-то подобны вирусам.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

 См. также:

  • Гаусс против Чурова: промежуточный итог08.05.2018 Гаусс против Чурова: промежуточный итог Аномалии в официальной статистике мартовских выборов подробно проанализировал Сергей Шпилькин в прошлом номере ТрВ-Наука. О методологических основаниях их выявления и о значении этих аномалий для оценки результатов выборов рассуждает канд. биол. наук, доцент Департамента социологии Высшей школы экономики в Санкт-Петербурге Алексей Куприянов.
  • Конец темных веков13.03.2018 Конец темных веков В начале марта 2018 года в Nature опубликована статья про результат астрономических наблюдений, который интерпретируется как свидетельство массового рождения первых звезд во Вселенной возрастом около 180 млн лет. Статья вызвала заметный отклик в СМИ. Для того, чтобы представить результат широкому кругу читателей, требуется экскурс в историю молодой Вселенной.
  • Дональд Трамп. Фото: Gage Skidmore, «Википедия»15.11.2016 Новый президент США и перспективы американской науки Журнал Scientific American открыто назвал взгляды Трампа на науку «шокирующе невежественными». Тем не менее это издание скрупулезно собрало те немногие высказывания будущего президента и членов его предвыборной команды на тему науки и инноваций, которые могли бы дать хоть какое-то представление, что же ожидает американскую науку при президенте Трампе.
  • Big Data = Большой Брат?26.01.2016 Big Data = Большой Брат? Более 90% всех данных на электронных носителях в мире было сгенерировано всего за последние два года. Интернет-компании, такие как Facebook и Google, быстро накапливают огромные массивы информации (часто обобщаемые термином Big Data), которые можно по-разному группировать, анализировать и использовать.
Подписаться
Уведомление о
guest
0 Комментария(-ев)
Встроенные отзывы
Посмотреть все комментарии
Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (Пока оценок нет)
Загрузка...
 
 

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: