taki_net: (gagarin)
taki_net ([personal profile] taki_net) wrote2014-04-07 10:11 pm

Как получаются нелепые рейтинги Путина и аннексии?

Я не знаю, все ли понимают, как устроен ЧЕСТНЫЙ опрос общественного мнения (о жульнических опросах от ФОМ и ВЦИОМ я сейчас не буду)? Что такое "опрос N человек по репрезентативной (всероссийской и т.д.) выборке"? Нет, это не результат обработки N ответов от N человек, выбранных так, чтобы их распределение по всем параметрам совпадало с всероссийским. Я сейчас отвлекусь от проблемы репрезентативности (очень сложной) и рассмотрю только самый простой вопрос - количественный. Чтобы получить N ответов, надо опросить (выдать анкет, инициировать интервью, произвести звонков...) много, много больше, чем N. Часто в десятки, порой в сотни раз больше. Иными словами, "сырой массив" ответов на вопрос поллстера выглядит так: "отказ от ответа, отказ, отказ, вар. А, отказ, отказ, не знаю, вариант Б, отказ, отказ, отказ, отказ...". Иными словами, если бы результаты опросов публиковались без обработки, как есть - рейтинг крымской авантюры выглядел бы так: "поддерживают решение Президента 7% опрошенных, 2% осуждают, остальные не сформировали своего отношения..."

Поллстеры на основе опыта (о котором ниже) исходят из предположения, что отказ от ответа - не одна из разновидностей позиции, а независимое поведения; иными словами, что не ответившие, на самом деле, имеют позицию по теме опроса, и ее можно с некоторой точностью предсказать на основе "видимого" меньшинства анкет. "Нулевой" вариант такого предсказания - простое исключение отказавшихся от ответа и подведения итога на основе полных анкет/интервью (я отвлекаюсь от того, что само множество ответивших будет не соответствовать генеральной выборке по возрасту, полу, доходу и т.п. параметрам, и его придется нормировать, то есть разбивать на группы и завышать или занижать ценность ответов недопредставленных или перепредставленных групп - это, как я уже отметил, отдельная сложная проблема, а нам бы разобраться с легкой.

Безопасно ли применять "нулевой вариант"? Легко видеть, что он основан на предположении, что в огромном массиве отказных анкет истинное распределение позиций ТОЧНО такое же, как в маленьком массиве отвеченных. Но это очень подозрительная гипотеза; ответившие принадлежат к экзотическому меньшинству "ненормально коммуникативных" людей; а всякое меньшинство, особенно предопределенное свободным выбором, подозрительно на необычность и еще по куче параметров. Кроме подозрительности, есть и прямое возражение: совершенно очевидно, что процент "не определившихся с ответом" между вариантами А и Б среди ответивших должен быть МНОГО НИЖЕ, чем среди отказников. Если вопрос опроса сложен, далек или неинтересен - в высшей степени неестественно все же отвечать на анкету, а не уходить в отказ. Иными словами, как минимум процент ответа "не знаю" среди идеальной выборки должен быть много выше, чем в "сырых" неотказных анкетах. Кстати, на опросе ФОМ+ВЦИОМ таки да, было ненормально мало ответов "не знаю".

Следующая тема - опросы можно разделить на два типа: на предсказывающие событие и на "оценки в себе". Пример первого типа - какой молотый кофе предпочитаете, арабику, робусту или молотого не пью? Послезавтра выборы - за кого будете голосовать, за синих или зеленых, или испортите бюллетень, или не пойдете?

Второго типа: верите ли вы в Бога? Как вы относитесь к Господину Президенту (отлично, хорошо, посредственно, плохо, не знаю).

В опросах первого типа наступает "послезавтра", и подсчет голосов (если он принят в этой стране) или цифры продаж покажут, была ли верна нулевая гипотеза, а точнее, какие поправки надо было внести. Часто эти поправки хорошо рационализируются, и их можно при аналогичных опросах выставить заранее, домножая на коэффициенты: так, сторонники бюджетных брендов стесняются и чаще отказываются от ответа, чем сторонники престижных и люксовых, сторонники правящей (или вероятно побеждающей) партии чаще отвечают, а сторонники предполагаемых лузеров - чаще уклоняются от ответа.

А что делать с опросами о поддержке того или иного лидера или тех или иных мер? Никакие "выборы наутро" или "продажи в конце квартала" тут не помогут. Можно применять поправки, заимствованные от недавних выборов, по аналогии - но насколько они аналогичны по интенсивности страху показаться себе (А МОЖЕТ И НЕ СЕБЕ, кто этих поллстеров знает) предателем? Врагом народа?

Иными словами, я утверждаю, что статистические модели - даже с поправками на политическую реальность России, но России прежней, докрымской - неприменимы для определения истинных настроений людей, и даже так называемый "честный" опрос Левады говорит нам только, что большинство людей в России, как и всегда, не готовы делиться своими политическими взглядами. А готовые и при этом поддерживающие власть - составляют меньшинство.

[identity profile] bbb.livejournal.com 2014-04-08 02:22 am (UTC)(link)
Ключевой пункт твоей схемы - в утверждении

"Чтобы получить N ответов, надо опросить (выдать анкет, инициировать интервью, произвести звонков...) много, много больше, чем N. Часто в десятки, порой в сотни раз больше"

То есть в предположении, что на сто опрошенных реально отвечает, в лучшем случае, десять человек, а "порой" - один на двести-триста-четыреста.

А так ли это? Действительно ли при опросах на политические темы отказываются отвечать от 90 и выше процентов опрошенных?

[identity profile] ella-p.livejournal.com 2014-04-08 07:07 am (UTC)(link)
Ставился эксперимент (гуглить "Дмитрий Рогозин"), специально направленный на замер искажений выборки при опросе конкретно в России. Примерно каждый второй отобранный телефон оказывается технически недоступен, примерно 60-70% из тех, до кого удается дозвониться, соглашаются разговаривать, потом из них процентов пять выпадает по техническим причинам (несоответствие квоте выборки, рабочий телефон и т.д.), и в пределах 10% от оставшихся прерывают интервью в процессе. Российская выборка несколько искажена в сторону необразованных и пожилых (западная, наоборот - в пользу среднего класса: сознательные лучше отвечают), но не смертельно.

[identity profile] bbb.livejournal.com 2014-04-08 02:55 pm (UTC)(link)
Ну вот это примерно то, что я и предполагал. "Технически недоступные" телефоны мы отбрасываем, в итоге отвечающих оказывается 0.65x0.95x0.9=0.55 охваченных. Не в десятки раз и не в сотни меньше, а в два раза.

Это при телефонных интервью.

Левадовский "Омнибус", если я правильно понял, предполагает физическое хождение по квартирам. А разговор с живым интервьюером прервать на полуслове, думаю, психологически тяжелее, чем просто повесить трубку.

То есть исходная конструкция оказывается слишком умозрительной.

[identity profile] taki-net.livejournal.com 2014-04-08 11:35 pm (UTC)(link)
Я сейчас спросил Эллу, может она расскажет.

У меня четкое впечатление (по личному опыту), что при телефонных опросах звонят хорошо прикормленному пулу.

[identity profile] bbb.livejournal.com 2014-04-09 12:56 am (UTC)(link)
Допустим даже, что в определенных схемах опрашивается заранее сформированная панель, то есть группа людей, ожидающих, что их будут опрашивать и т.д.

Следует ли принимать за данность, что эти люди - "прикормленные", то есть натасканные на заранее заданные ответы (или, скажем, подобранные так, чтобы выйти на заранее заданные ответы)?

Мне кажется, это слишком серьезные предположения, чтобы использовать их без проверки.

[identity profile] taki-net.livejournal.com 2014-04-08 11:34 pm (UTC)(link)
А вот интересно, это описание как-то учитывает тот факт, что мне поллстеры звонят примерно раз в неделю? Просто потому, что я пару раз ответил?

[identity profile] ella-p.livejournal.com 2014-04-09 10:03 am (UTC)(link)
Это - точно не учитывает.