Наукастинг со звездочкой

Году этак в 2008 стало понятно, что интернет поглотил мир, и все массово ломанулись использовать статистику поисковых запросов (G и Y), чтобы дополнить традиционную экономическую статистику и понять чего хотят и чувствуют люди. Вернее, чего они хотят от интернета, а значит и от жизни. Причем преимущества нового источника информации просто бешеные: результаты этого скрытого соцопроса получаются гораздо быстрее, непосредственнее — объект исследования не знает, что его исследуют и не меняет из-за этого поведение, выборка мегаобширна, «опрос» проходит круглосуточно и всемирно. К исследованиям в области поискового nowcasting-а даже подключился печально* известный многим  Хэл Я Написал Учебник по Микро Вэриан — он собственно на google и работает.

Особо активно поисковые запросы начали применять, чтобы понимать, что происходит с безработицей, распространением заболеваний , голосами на выборах и предпочтениями товаров длительного пользования. Довольно быстро правда выяснилось, что с данными не все так просто, как хотелось бы. Вернее, все совсем не просто, и поэтому вдвойне замечательно.

Приведу задачку со звездочкой, которую я нашел в реальном мире, чтобы проиллюстрировать проблемность интерпретации и замечательность. Надо рассказать историю — что происходит на этом графике.
unemp

Этот график хорошо бы использовать как задачу для экзамена по здравому смыслу и кругозору**. Тут же минимум пять отличных вопросов возникает:

  1. Почему безработица не выросла сейчас, хотя опять рецессия?
  2. Как объяснить, что при этом работу ищут настолько же часто относительно всех прочих запросов, как и в 2009?
  3. Работу действительно ищут чаще или мы неправильно интерпретируем относительную частоту запроса? Как ее правильно интерпретировать?
  4. Как изменить запрос, чтобы понять все-таки ищут работу чаще или нет?
  5. Что будет с этими линиями дальше?

 

Есть варианты ответов, но придержу их)

* Хотя мне норм.

** Предлагаю экзаменовать всех людей раз в год.

Еще

  1. Здесь Вэриан грубо говоря задается похожими вопросами и немного обсуждает безработицу.
  2. Здесь Гугл сам сделал несколько индексов по США на разные темы. Кто может объяснить их динамику, тому даю кандидата ЗСиК наук.
  3. Еще иллюстрация, насколько все непросто на примере заболеваний и того самого Google Flu Trends.
  4. Почему yandex жидится и не дает выгружать статистику за длительное время?