Наша статистика ок

Пришло время тестировать реальность и статистику на закон Бенфорда! В двух словах, числа из реального мира начинаются на 1, не в 11% случаев, а в 30%. На 9 — меньше, чем в 5%. Конечно, это касается только чисел, меняющихся на два-три порядка величины и больше (хорошо удовлетворяет распределение численности населения по городам и странам, размеры файлов и т.д.). Этот малоизвестный и кто-то скажет контринтуитивный факт недавно начали использовать, чтобы находить подозрительную статистику.

В 2001 году Греция вступила в еврозону, скрывая бюджетный дефицит, занижая его раз в 5-6, чтобы удовлетворять Маастрихтским критериям. Году к 2004 это выяснилось, но было поздно. Из-за таких стран как Греция в Европе в 2010-2012 годах был долговой кризис и вообще рецессия в 2012-2013. А потом многие поняли, что можно было посмотреть на их бюджетную статистику — отклонения там от закона Бенфорда были достаточно большие -, чтобы  заметить неладное пораньше — «Fact and Fiction in EU-Governmental Economic Data«. Конечно, это преувеличение, потому что суть скандала была в том, что все главари как бы знали, что греки вообще не алё: «Over the last few months, former European Commission President Romano Prodi, Greek Prime Minister George Papandreou and EU Commissioner for Trade Karel de Gucht have all admitted that Greece was literally «allowed to cheat» on its accounts in order to comply with the Maastricht criteria and therefore join the euro.» Но тем не менее — это не было достоянием общественности.

Российскую статистику частенько ругают. Но я многое проверил (Нацсчета, демографию, цены, торговую, банковскую, бюджеты) — следов подгонки в смысле распределения первой цифры у нас не видно, ни по годам, ни суммарно. Либо все ок, либо подтасовка осуществляется образованными людьми, статистическими педантами и виртуозами).

Вот, например, распределение первой цифры в выборках из некоторых показателей нашей статистики:

benford

Правда, мою любимую статистику по надоям я пока побаиваюсь проверять: http://www.mcx.ru/moloko/

Еще:

  1. Много статей про приложения и обоснование.
  2. Крутая статья крутого математика Теренса Тао про законы Бенфорда, Ципфа и Парето
  3. Популярно про историю вопроса вообще
  4. Древняя Греция за 18 минут от Арзамаса — очень хорошо

 

Наукастинг со звездочкой

Году этак в 2008 стало понятно, что интернет поглотил мир, и все массово ломанулись использовать статистику поисковых запросов (G и Y), чтобы дополнить традиционную экономическую статистику и понять чего хотят и чувствуют люди. Вернее, чего они хотят от интернета, а значит и от жизни. Причем преимущества нового источника информации просто бешеные: результаты этого скрытого соцопроса получаются гораздо быстрее, непосредственнее — объект исследования не знает, что его исследуют и не меняет из-за этого поведение, выборка мегаобширна, «опрос» проходит круглосуточно и всемирно. К исследованиям в области поискового nowcasting-а даже подключился печально* известный многим  Хэл Я Написал Учебник по Микро Вэриан — он собственно на google и работает.

Особо активно поисковые запросы начали применять, чтобы понимать, что происходит с безработицей, распространением заболеваний , голосами на выборах и предпочтениями товаров длительного пользования. Довольно быстро правда выяснилось, что с данными не все так просто, как хотелось бы. Вернее, все совсем не просто, и поэтому вдвойне замечательно.

Приведу задачку со звездочкой, которую я нашел в реальном мире, чтобы проиллюстрировать проблемность интерпретации и замечательность. Надо рассказать историю — что происходит на этом графике.
unemp

Этот график хорошо бы использовать как задачу для экзамена по здравому смыслу и кругозору**. Тут же минимум пять отличных вопросов возникает:

  1. Почему безработица не выросла сейчас, хотя опять рецессия?
  2. Как объяснить, что при этом работу ищут настолько же часто относительно всех прочих запросов, как и в 2009?
  3. Работу действительно ищут чаще или мы неправильно интерпретируем относительную частоту запроса? Как ее правильно интерпретировать?
  4. Как изменить запрос, чтобы понять все-таки ищут работу чаще или нет?
  5. Что будет с этими линиями дальше?

 

Есть варианты ответов, но придержу их)

* Хотя мне норм.

** Предлагаю экзаменовать всех людей раз в год.

Еще

  1. Здесь Вэриан грубо говоря задается похожими вопросами и немного обсуждает безработицу.
  2. Здесь Гугл сам сделал несколько индексов по США на разные темы. Кто может объяснить их динамику, тому даю кандидата ЗСиК наук.
  3. Еще иллюстрация, насколько все непросто на примере заболеваний и того самого Google Flu Trends.
  4. Почему yandex жидится и не дает выгружать статистику за длительное время?