Инфодемиологи предупреждают

Зоя Червонцева, аспирантка факультета биоинженерии и биоинформатики МГУ
Зоя Чер­вон­це­ва, аспи­рант­ка факуль­те­та био­ин­же­не­рии и био­ин­фор­ма­ти­ки МГУ

Тви­ты, опуб­ли­ко­ван­ные в состо­я­нии алко­голь­но­го опья­не­ния, могут быть вычис­ле­ны авто­ма­ти­че­ски, а дан­ные о место­по­ло­же­нии пья­не­ю­щих поль­зо­ва­те­лей помо­гут улуч­шить систе­му здра­во­охра­не­ния.

Рас­про­стра­не­ние инфор­ма­ции в Интер­не­те часто срав­ни­ва­ют с рас­про­стра­не­ни­ем инфек­ций: «вирус­ное видео», «вирус­ный мар­ке­тинг», «медиа-виру­сы». Но и самые насто­я­щие физи­че­ские забо­ле­ва­ния тоже остав­ля­ют сле­ды в соци­аль­ных сетях. Область эпи­де­мио­ло­ги­че­ских иссле­до­ва­ний, исполь­зу­ю­щих откры­тые интер­нет-дан­ные, обре­та­ет всё боль­шую попу­ляр­ность и даже полу­чи­ла отдель­ное назва­ние — инфо­де­мио­ло­гия.

Сре­ди послед­них дости­же­ний инфо­де­мио­ло­гии — опре­де­ле­ние после­ро­до­вой депрес­сии по изме­не­нию актив­но­сти в Facebook [1] и пред­ска­за­ние того, когда поль­зо­ва­тель зара­зит­ся грип­пом, осно­вы­ва­ю­ще­е­ся на ана­ли­зе тви­тов его дру­зей и сосе­дей [2]. Иссле­до­ва­те­ли из Роче­стер-ско­го уни­вер­си­те­та при­ме­ни­ли мето­ды инфо­де­мио­ло­гии к про­цес­су упо­треб­ле­ния алко­го­ля и пред­ста­ви­ли ряд любо­пыт­ных наблю­де­ний [3].

В каче­стве исход­ных дан­ных были взя­ты все посты соц­се­ти Twitter за год, име­ю­щие при­вяз­ку к кар­те в Нью-Йор­ке или в окру­ге Мон­ро. Иссле­до­ва­те­лям тре­бо­ва­лось решить две основ­ные зада­чи: выде­лить тви­ты, свя­зан­ные с упо­треб­ле­ни­ем алко­го­ля, и опре­де­лить, где имен­но поль­зо­ва­тель упо­треб­ля­ет — дома или нет, а если нет, то на каком рас­сто­я­нии от дома.

Что­бы исклю­чить абстракт­ные раз­мыш­ле­ния об алко­го­ле, наблю­де­ния за окру­жа­ю­щи­ми, вос­по­ми­на­ния и пла­ны на буду­щее, реле­вант­ные тви­ты опре­де­ля­ли в три эта­па. На пер­вом эта­пе опре­де­ля­лись запи­си, име­ю­щие хоть какое-то отно­ше­ние к алко­го­лю, даль­ше из них выби­ра­лись те, где речь идет об упо­треб­ле­нии алко­го­ля непо­сред­ствен­но самим поль­зо­ва­те­лем, и на тре­тьей ста­дии из уже ото­бран­ных выби­ра­лись тви­ты, где упо­треб­ле­ние опи­сы­ва­ет­ся в насто­я­щем вре­ме­ни.

На каж­дой из ста­дий исполь­зо­вал­ся один и тот же алго­ритм машин­но­го обу­че­ния — метод опор­ных век­то­ров. Обу­ча­ю­щие и тесто­вые выбор­ки состо­я­ли из запи­сей, про­ана­ли­зи­ро­ван­ных вруч­ную, а в каче­стве пара­мет­ров учи­ты­ва­лось, какие сло­ва и смай­ли­ки содер­жит запись. Опе­чат­ки в ана­ли­зе не учи­ты­ва­лись — сло­во, напи­сан­ное с ошиб­кой, засчи­ты­ва­лось так же, как и кор­рект­но напи­сан­ное. Чув­стви­тель­ность и точ­ность полу­чен­но­го авто­ма­ти­че­ско­го мето­да ока­за­лись доста­точ­но высо­ки­ми — и то и дру­гое было боль­ше 82% на каж­дой из ста­дий.

Для реше­ния вто­рой зада­чи — опре­де­ле­ния, отправ­лен ли твит из дома, — так­же было исполь­зо­ва­но несколь­ко сооб­ра­же­ний. Алго­ритм машин­но­го обу­че­ния учи­ты­вал, как часто поль­зо­ва­тель пишет тви­ты из это­го места, в какое вре­мя напи­сан твит и не содер­жит ли он слов вро­де «дом», «диван», «теле­ви­зор», «ван­на» и т. п. Соглас­но оцен­кам, всё это поз­во­ли­ло доволь­но точ­но оце­нить место­по­ло­же­ние авто­ров тви­тов, в 80% слу­ча­ев погреш­ность соста­ви­ла не более чем 100 м.

Далее на осно­ве полу­чен­ных дан­ных состав­ля­лась теп­ло­вая кар­та плот­но­сти тви­тов о воз­ли­я­ни­ях и на той же кар­те отме­ча­лись точ­ки про­да­жи алко­го­ля. Выяс­ни­лось, что доля поль­зо­ва­те­лей Twitter, пью­щих дома, в горо­де выше, чем в при­го­ро­де. Это несмот­ря на то, что плот­ность баров в рас­смат­ри­ва­е­мом горо­де Нью-Йорк зна­чи­тель­но выше, чем в рас­смат­ри­ва­е­мом при­го­ро­де — окру­ге Мон­ро. Там, если верить иссле­до­ва­нию, зна­чи­тель­ная часть поль­зо­ва­те­лей пьют на рас­сто­я­нии боль­ше кило­мет­ра от дома. В целом, доля пью­щих поль­зо­ва­те­лей в горо­де выше, и чем боль­ше точек про­да­жи алко­го­ля, тем выше плот­ность «пья­ных» тви­тов на при­ле­жа­щих тер­ри­то­ри­ях.

Do not let this bottle serve as an inspiration to call your exСоот­но­ше­ние полу­чен­ных резуль­та­тов с реаль­но­стью оста­ет­ся под боль­шим вопро­сом. Во-пер­вых, выбор­ка — поль­зо­ва­те­ли Twitter — силь­но нере­пре­зен­та­тив­на, извест­ны пере­ко­сы по воз­рас­ту и соци­аль­но­му ста­ту­су. Во-вто­рых, непо­нят­но направ­ле­ние при­чин­но-след­ствен­ных свя­зей: мно­го пьют, пото­му что мно­го баров, или мно­го баров, пото­му что мно­го пьют. Рабо­та име­ет боль­шую мето­ди­че­скую цен­ность: из обще­до­ступ­ных дан­ных при помо­щи мето­дов машин­но­го обу­че­ния, ока­зы­ва­ет­ся, мож­но полу­чить прав­до­по­доб­ные оцен­ки даже для тако­го нетри­ви­аль­но­го про­цес­са, как упо­треб­ле­ние алко­го­ля. Исполь­зо­ва­ние уже гото­вых откры­тых дан­ных зна­чи­тель­но уде­шев­ля­ет иссле­до­ва­ние.

Авто­ры пред­по­ла­га­ют, что раз­ра­бо­тан­ный под­ход может быть исполь­зо­ван для изу­че­ния соци­аль­ных состав­ля­ю­щих алко­го­лиз­ма, а выяс­нен­ные зако­но­мер­но­сти могут быть исполь­зо­ва­ны для его предот­вра­ще­ния, — в тек­сте ста­тьи даже упо­ми­на­ет­ся Обще­ство ано­ним­ных алко­го­ли­ков как при­мер орга­ни­за­ции, рабо­та­ю­щей с соци­аль­ны­ми фак­то­ра­ми. Кро­ме того, авто­ры счи­та­ют, что при помо­щи подоб­но­го под­хо­да мож­но изу­чать рас­про­стра­не­ние любых дру­гих скры­тых состо­я­ний и выяв­лять «тифоз­ных мэри» — скры­тых носи­те­лей опре­де­лен­ных забо­ле­ва­ний. Или убеж­де­ний. Все-таки идеи в чем-то подоб­ны виру­сам.

Если вы нашли ошиб­ку, пожа­луй­ста, выде­ли­те фраг­мент тек­ста и нажми­те Ctrl+Enter.

Связанные статьи

avatar
  Подписаться  
Уведомление о
Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (Пока оценок нет)
Загрузка...
 
 

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: