2015年12月18日金曜日
データ分析の流れ
「ビッグデータを活かすデータサイエンス」では、ビジネスにおけるデータ分析の流れを、「現状とあるべき姿」「問題発見」「データ収集と加工」「データ分析」「アクション」に分けている。「現状とあるべき姿」は、現状を把握し、本来どうあるべきなのかを考えることである。両者のギャップが、問題になる。このとき、問題の要因を探すのに、「影響度合い」「分解」「比較」という観点で見るのがよいと主張している。「影響度合い」は、ギャップの要因が、結果に対してどの程度影響するのかである。「分解」は、ギャップの要因をより細かな要素の分解する。このとき、MECEになるようにするとよい。MはMutually(要素を互いに)、EはExclusive(重複なく)、CはCollectively(漏れなく集める)、EはExhaustive(全体を尽くす)である。「比較」は、問題が起きているときのデータと、そうでないときのデータを比較する。時系列に、類似商品や類似サービスという観点で比較するとよい。「データ収集と加工」は、データ収集にも時間とコストがかかるから、「どんなデータが必要なのか考えろ」ということである。データは分析しやすい形に成型されているとは限らない。この加工は、その後の分析を効率的にできるかを決める。「データ分析」は、ビジネスでは「意思決定支援」と「自動化・最適化」に分けられる。「意思決定支援」は、問題解決のためのアクションを、人間が決定・実行するのを支援するのが目的である。人間が状況を理解して、適切な判断ができるようにする。単純で、理解しやすいモデルが効果的とされる。「自動化・最適化」は、問題解決のためのアクションをコンピュータに実行させるためのアルゴリズムを構築する。機械学習の手法を使う。「アクション」は、分析結果に基づいてアクションを実行するかどうかを決める。
2015年12月16日水曜日
データサイエンティスト
巷で、データサイエンティストと呼ばれる人たちが出現しつつあります。メディアなどで取り上げられ、急速にその存在感を増しています。その背景にはビッグデータをビジネスに活かそうとする、企業側の動きがあります。社内外のデータを使って、自社のビジネスに役立つ情報を得ようと、データ分析を行うのです。
2013年7月、日本経済新聞は、「ビッグデータ分析に人材の壁、25万人不足の見通し、、、」という記事を掲載しました。この記事の中に、「政府は関連ビジネスの経済効果を7兆円超と試算、、、」なんて文言が入っています。ってことは、データサイエンティストになれば、引く手あまたってこと?と思ってしまいます。それに、「ハーバード・ビジネスレビュー」誌が、データサイエンティストを「21世紀で最も魅力的(セクシー)な職業」と書いたものだから、その認知度が進んだのです。
でも、このデータサイエンティストという職業には、決まった定義が存在しないようです。色んな背景を持った人たちがデータ分析に携わってきたから、当然と言えば当然です。今は流行だから、何でもありの状態になっていますが、その内淘汰されていくのでしょう。ただ、統計学やITに関する専門知識を持っているだけでは十分ではないと言われています。「統計学×IT×ビジネスの領域横断のクロス人材」(橋本大也)という人もいれば、「データサイエンティストとは、自分に関わる人すべてが理解できる言葉でコミュニケーションを図り、言葉と視覚、理想的にはその両方を使って、データで物事を語るという特殊なスキルを持つ人」という人(先の「21世紀で最も魅力的(セクシー)な職業」を書いた人たち)もいます。後者はビジネスに関する知識やスキルまで要求していないようですが、前者はマーケティングを含むマネージメントの知見が要ります。
2015年8月30日日曜日
インフルエンザ流行の予測
Google Flu Trend(インフルトレンド)は、検索語句に基づいてインフルエンザの流行を予測するもので、2009年に論文が発表されました。それを見て、「こんなことができるのか」と感心したものです。アメリカでは、CDC(アメリカ疾病予防管理センター)がインフルエンザの流行に関する統計データを出しています。これには1-2週間の時間遅れが含まれるようですが、インフルトレンドはほぼリアルタイムで結果を出します。下図が、日本のインフルエンザ流行の推移です。インフルトレンドの予測は、実際のデータによく合っているように見えます。
アメリカの予測に使ったデータは、以下の2種類です。
・過去5年間(2003-2008年)のGoogle検索に入力された検索語句
・アメリカの9つの地域でインフルエンザによって病院を訪れた患者の数(CDCが週単位で発表)
検索語句の上位5千万件を選んで、週単位の検索数(を総検索数で規格化)とCDCのデータとの相関関係を調べます。膨大な数式モデルを使って検索語句を分析し、CDCが提供しているインフルエンザ症例とを比較しました。そこで、特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測とCDCデータとの間に高い相関関係が見られました。これで、GoogleがCDCと同じように、インフルエンザがどこで流行しているのか特定できたわけです。
ところが、Googleのインフルトレンドが、インフルエンザの流行を過大評価していたとの記事が「サイエンス」誌から発表されました。2011年8月から誤った予測を出し続けていたといいます。確かに、近年の流行予測は多くなる傾向が続いていて、変だなという感じはありました。やはり、データの相関だけでは限界があるのでしょうか、、、。
アメリカの予測に使ったデータは、以下の2種類です。
・過去5年間(2003-2008年)のGoogle検索に入力された検索語句
・アメリカの9つの地域でインフルエンザによって病院を訪れた患者の数(CDCが週単位で発表)
検索語句の上位5千万件を選んで、週単位の検索数(を総検索数で規格化)とCDCのデータとの相関関係を調べます。膨大な数式モデルを使って検索語句を分析し、CDCが提供しているインフルエンザ症例とを比較しました。そこで、特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測とCDCデータとの間に高い相関関係が見られました。これで、GoogleがCDCと同じように、インフルエンザがどこで流行しているのか特定できたわけです。
ところが、Googleのインフルトレンドが、インフルエンザの流行を過大評価していたとの記事が「サイエンス」誌から発表されました。2011年8月から誤った予測を出し続けていたといいます。確かに、近年の流行予測は多くなる傾向が続いていて、変だなという感じはありました。やはり、データの相関だけでは限界があるのでしょうか、、、。
2015年8月19日水曜日
ビッグデータの正体
ビクター・マイヤー=ショーンベルガー著「ビッグデータの正体」には、「ビッグデータの衝撃」よりも、衝撃的な内容が書いてありました。ビッグデータの定義として、「小規模ではなしえないことを大きな規模で実行し、新たな知の抽出や価値の創出によって、市場、組織、さらには市民と政府の関係などを変えること」というのは、全うでしょう。しかし、「全てのデータを扱う」「量さえあれば、精度は重要ではない」「因果関係ではなく相関関係が重要になる」という3つの変化で述べられている内容は、なかなか刺激的です。
1つ目は、標本をベースとした確率への挑戦です。「すべて」というところが重要で、無作為抽出で得られた標本でないから、その中で起きていることが細かく分析できると主張しています。2つ目は、「質より量」という話であす。量が増えれば、不正確なものが入り込みます。不正確なものが混じっていても、正確なものが大量にあれば、許容できると主張しています。大量にあることのメリット(変化を捉えるとか)を活かそうということです。3つ目は、結果がより重要視され、その原因はあまり重要で無くなるというものです。「こうなったら、こうなる」という関係だけわかれば、ビジネスはできます。なぜ、そうなるのかの理由は必要ありません。今一すっきりしないやり方ですが、とにかく結果がそうなるのだから、説明は求めないことにするのです。
1つ目は、標本をベースとした確率への挑戦です。「すべて」というところが重要で、無作為抽出で得られた標本でないから、その中で起きていることが細かく分析できると主張しています。2つ目は、「質より量」という話であす。量が増えれば、不正確なものが入り込みます。不正確なものが混じっていても、正確なものが大量にあれば、許容できると主張しています。大量にあることのメリット(変化を捉えるとか)を活かそうということです。3つ目は、結果がより重要視され、その原因はあまり重要で無くなるというものです。「こうなったら、こうなる」という関係だけわかれば、ビジネスはできます。なぜ、そうなるのかの理由は必要ありません。今一すっきりしないやり方ですが、とにかく結果がそうなるのだから、説明は求めないことにするのです。
登録:
投稿 (Atom)