2015年8月30日日曜日

インフルエンザ流行の予測

 Google Flu Trend(インフルトレンド)は、検索語句に基づいてインフルエンザの流行を予測するもので、2009年に論文が発表されました。それを見て、「こんなことができるのか」と感心したものです。アメリカでは、CDC(アメリカ疾病予防管理センター)がインフルエンザの流行に関する統計データを出しています。これには1-2週間の時間遅れが含まれるようですが、インフルトレンドはほぼリアルタイムで結果を出します。下図が、日本のインフルエンザ流行の推移です。インフルトレンドの予測は、実際のデータによく合っているように見えます。

 アメリカの予測に使ったデータは、以下の2種類です。
・過去5年間(2003-2008年)のGoogle検索に入力された検索語句
・アメリカの9つの地域でインフルエンザによって病院を訪れた患者の数(CDCが週単位で発表)
検索語句の上位5千万件を選んで、週単位の検索数(を総検索数で規格化)とCDCのデータとの相関関係を調べます。膨大な数式モデルを使って検索語句を分析し、CDCが提供しているインフルエンザ症例とを比較しました。そこで、特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測とCDCデータとの間に高い相関関係が見られました。これで、GoogleがCDCと同じように、インフルエンザがどこで流行しているのか特定できたわけです。
 ところが、Googleのインフルトレンドが、インフルエンザの流行を過大評価していたとの記事が「サイエンス」誌から発表されました。2011年8月から誤った予測を出し続けていたといいます。確かに、近年の流行予測は多くなる傾向が続いていて、変だなという感じはありました。やはり、データの相関だけでは限界があるのでしょうか、、、。

2015年8月19日水曜日

ビッグデータの正体

 ビクター・マイヤー=ショーンベルガー著「ビッグデータの正体」には、「ビッグデータの衝撃」よりも、衝撃的な内容が書いてありました。ビッグデータの定義として、「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」というのは、全うでしょう。しかし、「全てのデータを扱う」「量さえあれば、精度は重要ではない」「因果関係ではなく相関関係が重要になる」という3つの変化で述べられている内容は、なかなか刺激的です。
 1つ目は、標本をベースとした確率への挑戦です。「すべて」というところが重要で、無作為抽出で得られた標本でないから、その中で起きていることが細かく分析できると主張しています。2つ目は、「質より量」という話であす。量が増えれば、不正確なものが入り込みます。不正確なものが混じっていても、正確なものが大量にあれば、許容できると主張しています。大量にあることのメリット(変化を捉えるとか)を活かそうということです。3つ目は、結果がより重要視され、その原因はあまり重要で無くなるというものです。「こうなったら、こうなる」という関係だけわかれば、ビジネスはできます。なぜ、そうなるのかの理由は必要ありません。今一すっきりしないやり方ですが、とにかく結果がそうなるのだから、説明は求めないことにするのです。