«Двугорбая Россия»: дискуссия об анализе статистики по выборам в Госдуму

От редакции: Мы публикуем отзыв эксперта на статью «Двугорбая Россия» и комментарий автора.

 

Владислав Суховольский, докт. биол.наук, профессор, Федеральный исследовательский центр РАН, Красноярск
Владислав Суховольский, докт. биол.наук, профессор, Федеральный исследовательский центр РАН, Красноярск

В № 214 газеты «Троицкий Вариант — Наука» от 4 октября 2016 была опубликована статья эксперта Сергея Шпилькина, в которой анализируются итоги прошедших выборов в Государственную Думу РФ и утверждается, что в ходе этих выборов имели место значительные фальсификации в пользу одной из участвовавших в выборах партий [1].

Мне представляется, что я имею право прокомментировать эту статью и ее выводы. Дело в том, что я тот человек, который в 1990 году придумал те методы статистического анализа результатов голосований, которые сейчас используются для выявления фальсификаций. Г-н Шпилькин, перечисляя работы по теме статистического анализа результатов голосований, регулярно начинает их с нашей монографии (Собянин А. А., Суховольский В. Г. Демократия, ограниченная фальсификациями. М.: Проектная группа по правам человека, 1995). Второй в списке г-на Шпилькина обычно идет монография американских политологов, один из авторов которой М.Мягков — наш бывший сотрудник.

Если г-н Шпилькин читал нашу монографию (а насколько я знаю, он делал это), то он должен был знать, что использованный в его статье тест на явку — лишь один из целого набора статистических тестов на фальсификации, предложенный нами. Этот тест необходим, но недостаточен для утверждения о существовании фальсификаций. И для точного и достоверного вывода о наличии фальсификации желательно проверить данные голосования с использованием ВСЕХ возможных тестов.

Еще один простой тест на фальсификации для страны с достаточно однородным электоратом заключается в анализе связи логарифма числа голосовавших за партию или кандидата и логарифма места, занятого этой партией (кандидатом). Если всё честно, то связь между этими величинами описывается прямой линией. Хочу привести несколько примеров из практики голосований в разных странах в последние годы (рис. 1–3).

 

Рис. 1. Парламентские выборы в Турции в 2015 году
Рис. 1. Парламентские выборы в Турции в 2015 году

 

Рис. 2. Парламентские выборы в Финляндии в 2015 году
Рис. 2. Парламентские выборы в Финляндии в 2015 году

 

Рис. 3. Праймериз в Нью-Гэмпшире (штат с достаточно этнически однородным населением) в 2016 году
Рис. 3. Праймериз в Нью-Гэмпшире (штат с достаточно этнически однородным населением) в 2016 году

 

Как видно, со странами, где никто не кричит о фальсификациях, всё нормально: и ранговое распределение голосов за партии или кандидатов линейно в двойных логарифмических координатах, и коэффициент детерминации R2 очень близок к единице (прошу извинения за статистический жаргон, но я надеюсь, что читатели «Троицкого варианта» эти вещи знают). Если же имели место фальсификации, то условие линейности не выполняется и точки, характеризующие политическую партию (кандидата), в пользу которых совершались фальсификации, будут «отскакивать» от прямой, а коэффициент детерминации будет уменьшаться.

Как же выглядит ранговое распределение голосов, поданных за все партии, участвовавшие в выборах 2016? На рис. 4 и 5 приведены эти распределения, построенные по официальным данным ЦИК и по данным гипотезы г-на Шпилькина.

 

Рис. 4. Распределение голосов на выборах в Государственную Думу РФ в 2016 году (официальные данные)
Рис. 4. Распределение голосов на выборах в Государственную Думу РФ в 2016 году (официальные данные)

 

Рис. 5. Распределение голосов на выборах в Государственную Думу РФ в 2016 году (гипотеза С. Шпилькина)
Рис. 5. Распределение голосов на выборах в Государственную Думу РФ в 2016 году (гипотеза С. Шпилькина)

 

Как видно из рис. 4, лишь одна точка — данные по ЛДПР (третье место) — «отскакивает» от теоретической прямой. Заметим, что в случае фальсификаций в пользу «ЕР» точка, характеризующая ее результаты, должна была лежать существенно ВЫШЕ теоретической прямой. Если же отбросить данные для ЛДПР, то для распределения по остальным данным коэффициент детерминации R2 составит 0,983 (то есть практически 1!).

Распределение же, построенное на основе гипотезы г-на Шпилькина, существенно хуже описывается теоретической моделью. Более того, из этого графика следует, что фальсификации производились против (!) «ЕР». Ну уж в это я не верю (я думаю, и все нормальные люди тоже). Второе объяснение наблюдаемого вида распределения на рис. 5 — что-то не так с гипотезой С. Шпилькина.

Что же случилось, в чем причина наблюдаемых отклонений? В массовой фальсификации за ЛДПР? Можно рассмотреть различные гипотезы, объясняющие отклонения на рис. 4 без использования гипотезы о наличии фальсификаций. Но, наверное, газета не лучшее место для сложных статистических выкладок.

Хочется сказать только одно. В медицинской этике есть одно внешне очень простое правило для врачей: «Не навреди!» Речь идет о том, что врач не всегда может помочь больному, но он обязан проводить лечение так, чтобы больному не стало хуже. Представляется, что такое же правило должно стать нормой для людей, занимающихся количественной политологией. Мне представляется, что только после детального анализа результатов голосований на всех уровнях (федеральном, региональном, территориальном и т. п.) можно выступать с корректными выводами (мы в свое время анализировали даже на уровне отдельных избирательных участков, а их в РФ около 100 тыс.!). И еще: нужно понимать, что все избиратели голосовали одновременно и на выборах по федеральному списку, и на выборах по одномандатным округам, и при массовых фальсификациях результатов выборов по партийным спискам нужно одновременно фальсифицировать и результаты выборов по одномандатным округам — иначе не сойдется явка на тех и других выборах. Значит, нужно проверять все результаты. Понятно, за пару дней и даже за пару недель такой анализ не выполнить — это кропотливая и очень занудная работа. Но она необходима. В противном случае, если глобальные выводы делаются на основе произвольно выбранного критерия, избирателей «залечат» и они будут полагать, что все выборы в нашей стране всегда фальсифицируются. А это, по всей видимости, далеко не так — приведу лишь один пример (рис. 6).

 

Рис. 6. Результаты выборов в Государственную Думу РФ в 2011 году по Владивостоку (КПРФ — 26,86%, «ЕР» — 23,32%, «СР» — 20,42%, ЛДПР — 19,37%)
Рис. 6. Результаты выборов в Государственную Думу РФ в 2011 году по Владивостоку (КПРФ — 26,86%, «ЕР» — 23,32%, «СР» — 20,42%, ЛДПР — 19,37%)

Я вовсе не утверждаю, что никаких фальсификаций на прошедших (и предыдущих) выборах не было. Вполне возможно, что они были, и даже много. Но я совершенно точно уверен в том, что глобальные выводы о наличии фальсификаций нельзя делать на основе одного простого теста. Нужно всё же уважать науку, которой ты занимаешься.

  1. Сергей Шпилькин. Двугорбая Россия // ТрВ-Наука. № 214 от 4 октября 2016 года. http://trv-science.ru/2016/10/04/dvugorbaya-rossiya/

 

Редакция попросила Сергея Шпилькина прокомментировать отзыв Владислава Суховольского.

 

Сергей Шпилькин, независимый исследователь выборов
Сергей Шпилькин, независимый исследователь выборов

Книга А.А.Собянина и В.Г.Суховольского (далее «С-С») «Демократия, ограниченная фальсификациями: выборы и референдумы в России в 1991–1993 годах», изданная в 1995 году [1], — важная фундаментальная работа, положившая начало исследованиям статистики выборов в России. Некоторые из подходов, предложенных в этой книге, остаются актуальными и по сей день. Например, «диаграмма Собянина — Суховольского», т.е. диаграмма рассеяния для результатов кандидатов по участкам в координатах «явка — результат кандидата» (исходно у С-С «явка — доля проголосовавших за кандидата от всех зарегистрированных избирателей») остается одним из самых наглядных и простых способов оценить общую ситуацию с голосованием в стране в целом или в отдельном регионе. В некотором смысле я даже рад, что не был знаком с этой книгой в 2007 году, когда меня заинтересовали результаты выборов в Государственную Думу, — иначе я, скорее всего, не стал бы углубляться в данные до уровня участков, сочтя, что всё интересное уже понято и найдено. Разумеется, эта книга не может не занимать одно из первых мест в любом списке литературы по статистическому анализу выборов. Поэтому я очень рад, что один из авторов этой книги В.Г.Суховольский откликнулся на мою заметку в ТрВ-Наука № 214, написанную по итогам думских выборов 18 сентября. Однако с тезисами, высказанными в этом отклике, я, к сожалению, согласиться не могу.

В.Г.Суховольский упрекает меня в том, что я пренебрегаю предложенным в его с А.А.Собяниным книге критерием «честности» выборов, предполагающим наличие линейной зависимости между логарифмом процента голосов за кандидата и логарифмом места, занятого этим кандидатом (= ранга кандидата в ранжированном по убыванию результатов списке). Согласно С-С, эта «…численная закономерность носит общий характер и описывает ситуацию „свободной конкурентной борьбы“ за распределение конечного количества каких-либо условных „благ“» (глава 7). По сути, как отмечают С-С, эта закономерность представляет собой частный случай т.н. закона Ципфа — Парето. При этом авторы заявляют, что «выполнение уравнения (1) для выборного процесса означает, что существует „свободная конкуренция“ всех кандидатов, имеющих возможность беспрепятственно объяснить свои политические взгляды и политическую платформу избирателям».

И сам описанный выше критерий, и выводы, которые на его основании делает в своем отзыве В.Г.Суховольский, представляются мне сомнительными. Во-первых, критерий не выдерживает чисто технической «проверки на вшивость»: он с большой вероятностью не выполняется в ситуации, когда кандидаты, занявшие на выборах первое и второе места, показывают близкие результаты. За примером далеко ходить не надо: возьмем первый тур выборов президента Франции в 2012 году (тогда первое место с результатом 28,63% занял Франсуа Олланд, а второе с результатом 27,18% — Николя Саркози). Как легко видеть, зависимость очень далека от предполагаемой линейной.

Рис. 1. Первый тур президентских выборов во Франции (2012)
Рис. 1. Первый тур президентских выборов во Франции (2012)

Во-вторых, согласно С-С, сам критерий основывается на предположении о свободной конкуренции всех кандидатов в информационном пространстве. Если это предположение можно было принять в качестве «нулевого приближения» в первые годы выборов в Российской Федерации (достаточно вспомнить, что на выборах 1993 года в Государственную Думу проправительственный блок «Выбор России» проиграл ЛДПР, заняв второе место), то считать нынешнюю ситуацию в России свободной конкуренцией кандидатов с равным доступом к информационным ресурсам более чем странно.

В-третьих, как справедливо отмечает В.Г.Суховольский, «глобальные выводы о наличии (добавлю от себя — и отсутствии) фальсификаций нельзя делать на основе одного простого теста». Действительно, наличие фальсификаций на выборах в России было неоднократно продемонстрировано в многочисленных анализах, основанных на гораздо более подробных данных, чем результаты голосования за кандидатов по стране в целом, — см., например, [2, 3, 4, 5, 6, 7], и анализ, приведенный в моей заметке, надо рассматривать в этом контексте.

И последнее замечание общего характера, относящееся не только к этой дискуссии, но и к другим апелляциям к «закону Ципфа». Оно касается использования коэффициента детерминации R2 как показателя качества регрессии. Глядя на эффектные значения R2 на графиках в отзыве В.Г.Суховольского, надо помнить, что в норме при регрессии в качестве «нулевой гипотезы» предполагается, что объясняемая переменная независима от объясняющей. Однако это не так в нашем случае, когда объясняемая переменная — это результат партии, а объясняющая — ее номер в ранжированном списке. Если взять ряд случайных числовых значений и упорядочить его по убыванию (или возрастанию), номер величины в упорядоченном ряду (ранг) будет, очевидно, коррелирован с ее значением. Например, как показано в [7], ряды (a1……an) и (rank a1…… rank an), где a1……an — значения нормально распределенной случайной величины, при nкоррелированы с r. Поскольку логарифм ранга, в свою очередь, коррелирован с рангом, а логарифм величины — с величиной, то, даже если мы возьмем для результатов партий (a1……an) просто случайные значения, мы «задаром» получим некоторую ненулевую величину R2 для зависимости между результатом партии и логарифмом его ранга. Более того, при удачном выборе типа случайной величины эта «даровая» часть может быть очень существенной. Как показывает численный эксперимент, если взять в качестве ai величины, обратные равномерно распределенной в интервале (0, 1) случайной величине, и n = 12 (количество партий, учитываемых В.Г.Суховольским на его графиках для думских выборов 2016 года, — две последние в рейтинге он почему-то исключает из рассмотрения), то вероятность получить для рядов (ln rank a1…… rank ln an) и (ln a1…… ln an) коэффициент детерминации R2 > 0,97 (как на рис. 4 у В.Г.Суховольского) для случайно выбранных таким образом «результатов партий» составляет 15% (поскольку все числа стоят под логарифмом, заботиться о приведении суммы «результатов» к 100% не нужно). На мой взгляд, это еще один повод задуматься о том, является ли корреляция логарифма результатов кандидатов с логарифмом занятого местом сколько-нибудь содержательным фактом.

 

Литература

  1. Собянин А.А., Суховольский В.Г. Демократия, ограниченная фальсификациями. М.: Проектная группа по правам человека, 1995. http://hrights.ru/text/sob/
  2. Kobak D., Shpilkin S., and Pshenichnikov M.S. Integer percentages as electoral falsification fingerprints // Ann. Appl. Stat. 2016. 10 (1). P. 54–73. https://arxiv.org/abs/1410.6059
  3. Kobak D., Shpilkin S., and Pshenichnikov M.S. Statistical anomalies in 2011–2012 // Russian elections revealed by 2D correlation analysis. 2012. arXiv:1205.0741v2. https://arxiv.org/abs/1205.0741
  4. Enikolopov R., Korovkin V., Petrova M., Sonin K., Zakharov A. Field experiment estimate of electoral fraud in Russian parliamentary elections // Proceedings of the National Academy of Sciences 110 (2). P. 448–452. http://www.pnas.org/content/110/2/448.full
  5. С.В. Мухлеж на выборах: проверка в два счета // ТрВ-Наука. № 141 от 5 ноября 2013 года. http://trv-science.ru/2013/11/05/mukhljozh-na-vyborakh-proverka-v-dva-scheta/
  6. С.В. Про арифметику и немножко про выборы // ТрВ-Наука. № 99 от 13 марта 2012 года. http://trv-science.ru/2012/03/13/pro-arifmetiku-i-nemnozhko-pro-vybory/
  7. Овчинников Б. 18 честных городов // ТрВ-Наука. № 98 от 28 февраля 2012 года. http://trv-science.ru/2012/02/28/sto-vosemdesyat-chestnykh-gorodov/
  8. Stuart A. The correlation between variate-values and ranks in samples from a continuous distribution // British Journal of Mathematical and Statistical Psychology. 1954. 7(1). P. 37–44.
Подписаться
Уведомление о
guest

30 Комментария(-ев)
Встроенные отзывы
Посмотреть все комментарии
Валерий И. Чурбанов
7 года (лет) назад

В автобиографии Льва Арцимовича 1953 года наткнулся на такую фразу:
– В выборные органы не избирался. В 1947 г. был заместителем председателя участковой избирательной комиссии по выборам в Верховный Совет Союза ССР. (ААН СССР, ф. 411, оп. 3, д. 316, л. 11-12 об. Автограф.)
И подумал:
– Нам что, сегодня не хватает дорожащих репутацией заместителей председателей УИК?

Валерий И. Чурбанов
7 года (лет) назад

Проект постановления ЦИК России «О применении технологии ускоренного ввода данных протоколов участковых избирательных комиссий об итогах голосования в Государственную автоматизированную систему Российской Федерации «Выборы» с использованием машиночитаемого кода»
http://cikrf.ru/news/relevant/2017/01/26/01.html

Михаил
Михаил
3 года (лет) назад

Сначала прочитал отзыв Суховольского, потом ответ Шпилькина. Шпилькин полностью прав, добавить нечего.

Леонид Коганов
Леонид Коганов
3 года (лет) назад
В ответ на:  Михаил

Ваш пост на ньюс.ру?! КолИтесь, ничего не будет, имхо! Ну решительно ничего.
Л.К.
А пост на ньюс.ру с ФБ – оченно хорош, спасибо!
Я выложил на параллельную ветку.
К.

Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (Пока оценок нет)
Загрузка...