Соцопрос: как найти «рисованные» анкеты
Соцопрос — дорогостоящее и сложно с организационной точки зрения мероприятие. Качество полученных в соцопросе напрямую зависит от качества анкет, от того, как они заполнялись: честно и в соответствии с методикой или же интервьюеры их «рисовали» (фальсифицировали).
Острее всего вопрос о «рисованных» анкетах, о фальсификации результатов социологического опроса, встает тогда, когда итоги опроса, скажем так, слегка отличаются от ожиданий социолога. Хотя и «дежурная», обязательная проверка для многих является обязательной.
Чаще всего проверка заключается в повторном опросе респондентов. Они должны подтвердить свое участие в опросе, а так же повторно ответить на пару вопросов анкеты: хорошо, если ответы на вопросы первой и повторной анкеты совпадают.
Но я регулярно задаюсь вопросом: а как проверить «чистоту» опроса на лету, статистическими методами, имея электронный массив данных опроса? Хотел бы поделиться некоторыми своими мыслями по этому поводу.
Давайте порассуждаем, чем отличаются «чистые» и честные анкеты, от «рисованных» и фальсифицированных.
Когда анкеты рисуют, в них отсутствуют те взаимосвязи между данными, что имеются в наличии в чистых анкетах. Какие это могут быть закономерности? В первую очередь — статистические, такие как средне-квадратичное отклонение или средние значения. Но по средним значениям есть одно «но». Дело в том, что интервьюеры — это не роботы, а живые люди, и стиль их интервьюирования отличается от интервьюера к интервьюеру. Один может на вопрос о рейтинге задать два раза, а второй будет спешить сделать работу и малейшее раздумье в глазах респондента будет интерпретировать как вариант ответа «затрудняюсь ответить». Поэтому в анкетах одного будет больше результативных ответов о поддержке, а в анкетах другого — ответов «з. о.». Так же в анкетах одного итоговая известность будет выше, а в анкетах другого — ниже. Это, конечно, тоже брак в работе, но это брак не относится к вопросу о рисовании, поэтому его надо отсечь.
Идея такая. Разбиваем наш массив либо на маршруты, либо на подмассивы, сделанные одним интервьюером. Берем одну переменную, к примеру, рейтинг внутри подмассива политика. Смотрим распределение рейтингов на маршруте в целом по выборке (массиву), если оно близко к нормальному распределению, то мы склоняемся к гипотезе, что анкеты «чистые», если в распределении есть «выбросы», значения, явно не укладывающиеся в нормальное гауссово распределение — есть повод задуматься о фальсификации.
Еще бы я проверил среднеквадратичные отклонения подвыборок и сравнил с помощью какого-нибудь метода сравнения нескольких зависимых переменных (пока не знаю, что лучше: использовать H-критерий Крускала-Уоллиса или однофакторный дисперсионный анализ, эти методы работают не с двумя, а несколькими выборками). Если средне-квадратичные отклонения как переменные не дают значимых различий между маршрутами или интервьюеру, то это хорошо, а нет — плохо, нужно провести дополнительную проверку.
Комментарии