Google Flu Trend(インフルトレンド)は、検索語句に基づいてインフルエンザの流行を予測するもので、2009年に論文が発表されました。それを見て、「こんなことができるのか」と感心したものです。アメリカでは、CDC(アメリカ疾病予防管理センター)がインフルエンザの流行に関する統計データを出しています。これには1-2週間の時間遅れが含まれるようですが、インフルトレンドはほぼリアルタイムで結果を出します。下図が、日本のインフルエンザ流行の推移です。インフルトレンドの予測は、実際のデータによく合っているように見えます。
アメリカの予測に使ったデータは、以下の2種類です。
・過去5年間(2003-2008年)のGoogle検索に入力された検索語句
・アメリカの9つの地域でインフルエンザによって病院を訪れた患者の数(CDCが週単位で発表)
検索語句の上位5千万件を選んで、週単位の検索数(を総検索数で規格化)とCDCのデータとの相関関係を調べます。膨大な数式モデルを使って検索語句を分析し、CDCが提供しているインフルエンザ症例とを比較しました。そこで、特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測とCDCデータとの間に高い相関関係が見られました。これで、GoogleがCDCと同じように、インフルエンザがどこで流行しているのか特定できたわけです。
ところが、Googleのインフルトレンドが、インフルエンザの流行を過大評価していたとの記事が「サイエンス」誌から発表されました。2011年8月から誤った予測を出し続けていたといいます。確かに、近年の流行予測は多くなる傾向が続いていて、変だなという感じはありました。やはり、データの相関だけでは限界があるのでしょうか、、、。
0 件のコメント:
コメントを投稿