Сбор подписей и поисковые запросы в Интернете: попытка анализа

Насколько можно верить тому, что 160 кандидатов, сдавших подписи, действительно их собирали? Чтобы ответить на этот вопрос, можно посмотреть, как менялось число поисковых запросов в Интернете по их именам во время кампании по сбору подписей. Если за это время оно не выросло по сравнению с предыдущим периодом, это будет означать, что подписи кандидата, скорее всего, не настоящие.

Для начала было необходимо выяснить закономерность, как число подписей, собранных кандидатами за каждую неделю, соотносилось с числом запросов в Интернете в адрес этого кандидата.

Я использовал данные по количеству подписей, собранных 10 независимыми кандидатами-самовыдвиженцами, и по числу запросов от жителей Москвы в их адрес на «Яндексе». Данные по подписям были получены со страниц кандидатов в «Фейсбуке» и из разговоров с кандидатами и/или их штабами [1]; данные по частоте запросов за каждую неделю были взяты с сервера wordstat.yandex.ru [2]. В среднем, темп сбора подписей увеличивался ближе к концу кампании. Однако этот рост был неравномерен — например, некоторые кандидаты собирали больше подписей в середине кампании, и потом сборщики подписей переходили к отстающим кандидатам.

Эта неравномерность позволила использовать регрессионный анализ, который показал, что в среднем 100 собранных подписей соответствуют от 8,1 до 18,9 дополнительным запросам на «Яндексе» [3]. Более консервативная оценка предполагала, что в отдельные недели по какой-то причине может быть повышенный интерес ко всем кандидатам, — хотя это предположение, скорее всего, приводит к заниженной оценке [4]. Так что у кандидата, реально собравшего 5000 подписей, число запросов за период кампании должно быть в среднем на 400 больше, чем за такой же период до начала кампании, —и это по консервативной оценке.

Сразу хочу уточнить, что изложенное представляет собой предварительные оценки. В частности, можно предположить, что за некоторых кандидатов чаще оставляли подписи люди, реже пользующиеся Интернетом, например пожилые; такие кандидаты могли собрать нужное число подписей и с меньшим числом запросов в свой адрес. На данный момент у меня нет данных о возрастном распределении граждан, поставивших подписи за разных кандидатов, чтобы более однозначно судить о такой возможности. Однако вряд ли это расхождение будет очень большим. Единственным действенным методом сбора подписей был сплошной обход всех квартир в округе, так что возрастной состав граждан, контактировавших со сборщиками, примерно одинаков во всех округах. Среди пожилых людей тоже довольно много тех, кто пользуется Интернетом [5]; более того, среди тех, кто интересовался кандидатами в Интернете, наверняка было много тех, кто не ставил за него подписи, но контактировал со сборщиками.

В таблице приведена средняя частота интернет-запросов в Москве по нескольким группам кандидатов за два периода: с 22 апреля по 2 июня, и с 3 июня по 7 июля. В этих расчетах не учитывались кандидаты со слишком распространенными фамилиями, те, кто имеет знаменитых тезок, и те, кто создавал крупные инфоповоды [6].

Среднее число запросов о кандидате определенной категории

Категория

Количество кандидатов

22 апреля —
2 июня

3 июня —
7 июля

Разница

Независимые кандидаты

14

775

1946

+1171

«Административные» кандидаты (переизбирающиеся депутаты МГД)

11

913

1089

+176

«Административные» кандидаты (прочие)

25

1312

1791

+478

«Коммунистическая партия — коммунисты России»

28

196

238

+41

По независимым кандидатам, собравшим нужное число подписей (напомним, в основном людей из этой группы не зарегистрировали) был резкий, более чем в два раза, рост запросов во время кампании по сбору подписей. Этот рост был сильнее, чем тот, который можно было ожидать исходя из описанной выше закономерности. Отчасти это потому, что кампания независимых кандидатов приобрела общемосковскую известность, и часть запросов не была вызвана контактами со сборщиками. К сожалению, «Яндекс» не предоставляет статистику на уровне районов Москвы; однако существует отдельная статистика запросов для Зеленограда, где кампанию по сбору подписей вел местный бизнесмен Евгений Елагин (необходимого числа подписей он не собрал); число запросов по этому имени также резко выросло во время кампании по сбору подписей, причем 55% московских запросов исходили именно из Зеленограда.

По «административным» кандидатам рост числа запросов был намного более скромным; в особенности это касалось переизбирающихся депутатов Мосгордумы. Даже если мы используем консервативную оценку — 8,1 дополнительных запросов на 100 подписей, — то получается, что все переизбирающиеся депутаты не могли собрать все свои подписи. Среди них были многие, у кого собранные подписи не приводили к росту числа запросов в «Яндексе». Единственное объяснение, совместимое с этими данными, — что по крайней мере часть этих подписей была «нарисована», то есть массово сделана небольшим числом фальсификаторов. То есть массовый сбор подписей при помощи административного ресурса — например, среди работников государственных предприятий — тоже должен был привести к росту запросов в Интернете. Если использовать менее консервативную оценку в 18,9 запроса на 100 подписей, тот же вывод можно сделать и в отношении остальных административных кандидатов. С КПКР всё понятно — положив руку на сердце, можно утверждать, что никто или почти никто из них всерьез не собирал подписи.

Алексей Захаров,
канд. эконом. наук

  1. Использован список, опубликованный московским штабом Алексей Навального 24 июня, плюс два кандидата, ассоциированные с центром «Городские Проекты». Я не использовал данные по кандидатам, у которых распространенная или известная фамилия, или у которых слишком высокая федеральная известность. В итоге, в исследование вошли данные 10 кандидатов — Дарья Беседина, Анастасия Брюханова, Юлия Галямина, Иван Жданов, Владимир Милов, Андрей Морев, Виктор Хамраев, Денис Шендерович, Роман Юнеман, Константин Янкаускас.
  2. Данные загружены 08.07.2019.
  3. Использовался метод наименьших квадратов. Одно наблюдение — одна неделя+кандидат (начиная с 20.05–26.05 и заканчивая 1.07–7.07; всего 70 наблюдений). Независимая переменная — число собранных за неделю подписей (ноль в первые две недели). Консервативная оценка — регрессия с фиксированными эффектами кандидатов и недель (b=.081, se=.039, R2=.85, робастные ошибки), менее консервативная оценка — без фиксированных эффектов недель (b=.189, se=.029, R2=.77, робастные ошибки).
  4. Уверен, что кандидаты, чьи данные использованы, действительно собирали эти подписи; с работой нескольких штабов я непосредственно контактировал, за одного кандидата сам участвовал в сборе подписей. Независимые кандидаты ответственно подходили к процессу, понимая, что они будут проверяться с пристрастием. Однако если по какой-то причине кто-то из независимых кандидатов собрал меньше подписей, чем сообщил мне, полученные оценки также будут заниженными.
  5. По оценке Дениса Волкова, руководителя отдела прикладных социологических исследований «Левада-Центра», доля москвичей СТАРШЕ 60 ЛЕТ, регулярно пользующихся Интернетом, составляет примерно 40%.
  6. Список административных кандидатов такой же, как в материале Сергея Шпилькина, за исключением Романа Бабаяна, Андрея Метельского (инфоповоды), Елену Николаеву, Андрея Соколова (посторонние запросы) и Сергея Зверева (тезка-знаменитость). Среди независимых кандидатов нет Любови Соболь и Ильи Яшина (инфоповоды), а также Александра Соловьева (много запросов, не относящихся к кандидату). Среди кандидатов КПКР нет Николая Александрова, Сергея Мороза, и Александра Филатова (посторонние запросы).
Подписаться
Уведомление о
guest

12 Комментария(-ев)
Встроенные отзывы
Посмотреть все комментарии
Юрий Ковалев
4 года (лет) назад

А разве не Борис Овчинников уже писал про это?

Борис Овчинников
4 года (лет) назад
В ответ на:  Юрий Ковалев

Yuri Kovalev Алексей подошёл намного более кропотливо и детальнее. Я смотрел только на абсолютное количество запросов за месяц, а Алексей – на динамику понедельную

Юрий Ковалев
4 года (лет) назад
В ответ на:  Юрий Ковалев

Моя душа требует ссылки.

Юрий Ковалев
4 года (лет) назад
В ответ на:  Юрий Ковалев

А вообще анализ совершенно принципиальной важности.

Браво всем вовлеченным.

Том Форд
4 года (лет) назад

А у тех, кто прошёл, собрав подписи, уровень запросов был повышен?

Михаил Родкин
4 года (лет) назад
В ответ на:  Том Форд

У тех, кто НЕ прошел затраты на проведение компании и число роста запросов во время компании значимо НАМНОГО больше. Выводы делайте сами. Но поясню немного ситуацию – Власть поставила запретительный барьер не пускать лишних, только от своих партий, но провластным кандидатам тоже пришлось идти не от правящей партии (шибко уж популярна в массах), а как самовыдвиженцам … и тоже собирать подписи. Но … как говорил Отец Народа, не важно как голосуют, важно как считают

weila_
weila_
4 года (лет) назад

Сразу возникает вопрос об исходных данных для анализа.
Автор отмахивается от такого важного вопроса как учет “бренда” (т.е. известности кандидата или партии/движения которую он представляет), а между тем мы видим, что даже среди 10 “калибровочных” кандидатов разница в узнаваемости бренда составила примерно 2.3 раза. Т.о. влияние “бренда” на число поисковых запросов не вызывает сомнения. Теперь следует учесть влияние такого фактора как возраст. Если молодежь охотнее обращается к интернету для поиска информации, то пожилые люди предпочитают получать информацию например из телевидения, печатной продукции, личного общения. Учет данного фактора приведет к увеличению разброса в количестве поисковых запросов для каждого “бренда”. Из всего вышесказанного очевидно, что компания построенная с учетом целевой аудитории (а сюда можно отнести и известные партии, и переизбирающихся кандидатов, которые активно работали с населением) не будет соответствовать критериям указанного исследования.
Остается добавить низкую надежность источника данных о собранных подписях, т.к. в эту статистику попадают все сфальсифицированные подписи.
Напрашивается вывод, что данное исследование из-за недостатков методики не может являться основой для оценки достоверности данных подписной компании. Либо методику данного исследования следует подкрепить исследованием по учету влияния узнаваемости “бренда” на число поисковых запросов и ранжировать собранные данные с учетом “бренда”, либо воспользоваться классической методикой опроса по репрезентативной выборке и уже на основе этой информации строить предположения о наличии или отсутствии “дорисованных” подписей.

Михаил Родкин
4 года (лет) назад
В ответ на:  weila_

Вопрос не стоит о наличии или отсутствии дорисованных подписей. Условия получения подписей заведомо ВЕСЬМА трудно выполнимые. Можно предположить, что дорисованные есть у всех. Вопрос в %, и как проверяли. Понятно, что оппозиционеры ожидали проверки с пристрастием, и, видимо, в массе работали лучше. Это видно и из, в среднем, высокой стоимости работ по сбору подписей (при том, что они могли рассчитывать и на старательных волонтеров), видно и по росту числа запросов в интернете. А так, конечно, почти любой статистический результат можно очернить пожеланием добавить робастности за счет уточнения того и этого. Кстати, наличие поддержки и потенциальных волонтеров подкрепляется тем, что власти третью субботу подряд закрывают для прохода центр Москвы. Кто то бы вышел защищать подписи перекрасившихся единоросов ??? Э … вышел бы?
Кстати … а если какой то “яшин” напишет в фэйсбуке что в след суб-воскр гуляем по пл. Революции и Красной – власти на смех всему миру перекроют космонавтами или разроют эти площади??

weila_
weila_
4 года (лет) назад
В ответ на:  Михаил Родкин

Вопрос о наличии или отсутствии рисованных подписей в моем комментарии действительно не стоит..
Стоит вопрос о негодности применяемой методики в связи с отсутствием учета ключевого фактора, а именно учета узнаваемости кандидата.
Разброс в количестве поисковых запросов говорит только о том, что в большинстве своем независимые кандидаты относятся к категории “ой! а кто это?” с закономерным для их подписной компании результатом.

Михаил Родкин
4 года (лет) назад
В ответ на:  weila_

Если Вы хотите сказать, что кандидаты отличаются по “узнаваемости” – кто бы сомневался! Но если в среднем по группам параметры значимо отличаются – этого уже достаточно. А тщательный анализ не среднего по группам, а с учетом узнаваемости отдельных кандидатов (надо еще придумать методику как ее учитывать – по упоминаниям на центральном ТВ или как?) – то такой анализ можно сделать тогда, когда актуальность его для текущей обстановки будет уже нулевым. И займет этот анализ, видимо, страниц 30 минимум … где бы Вы предложили его опубликовать?

Иван Фокин
4 года (лет) назад

Алексей, простите, а можете пояснить, как вы смотрели по неделям? А то я попытался, для примера, посмотреть темпоральную динамику запросов по “Навальному”, а мне показывается только территориальные показатели за месяц.

Иван Фокин
4 года (лет) назад

А, вообще, очень интересный подход! Спасибо за расширение кругозора, Алексей!

Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (4 оценок, среднее: 4,00 из 5)
Загрузка...