2015年12月18日金曜日

データ分析の流れ

 「ビッグデータを活かすデータサイエンス」では、ビジネスにおけるデータ分析の流れを、「現状とあるべき姿」「問題発見」「データ収集と加工」「データ分析」「アクション」に分けている。「現状とあるべき姿」は、現状を把握し、本来どうあるべきなのかを考えることである。両者のギャップが、問題になる。このとき、問題の要因を探すのに、「影響度合い」「分解」「比較」という観点で見るのがよいと主張している。「影響度合い」は、ギャップの要因が、結果に対してどの程度影響するのかである。「分解」は、ギャップの要因をより細かな要素の分解する。このとき、MECEになるようにするとよい。MはMutually(要素を互いに)、EはExclusive(重複なく)、CはCollectively(漏れなく集める)、EはExhaustive(全体を尽くす)である。「比較」は、問題が起きているときのデータと、そうでないときのデータを比較する。時系列に、類似商品や類似サービスという観点で比較するとよい。「データ収集と加工」は、データ収集にも時間とコストがかかるから、「どんなデータが必要なのか考えろ」ということである。データは分析しやすい形に成型されているとは限らない。この加工は、その後の分析を効率的にできるかを決める。「データ分析」は、ビジネスでは「意思決定支援」と「自動化・最適化」に分けられる。「意思決定支援」は、問題解決のためのアクションを、人間が決定・実行するのを支援するのが目的である。人間が状況を理解して、適切な判断ができるようにする。単純で、理解しやすいモデルが効果的とされる。「自動化・最適化」は、問題解決のためのアクションをコンピュータに実行させるためのアルゴリズムを構築する。機械学習の手法を使う。「アクション」は、分析結果に基づいてアクションを実行するかどうかを決める。

2015年12月16日水曜日

データサイエンティスト

 巷で、データサイエンティストと呼ばれる人たちが出現しつつあります。メディアなどで取り上げられ、急速にその存在感を増しています。その背景にはビッグデータをビジネスに活かそうとする、企業側の動きがあります。社内外のデータを使って、自社のビジネスに役立つ情報を得ようと、データ分析を行うのです。  2013年7月、日本経済新聞は、「ビッグデータ分析に人材の壁、25万人不足の見通し、、、」という記事を掲載しました。この記事の中に、「政府は関連ビジネスの経済効果を7兆円超と試算、、、」なんて文言が入っています。ってことは、データサイエンティストになれば、引く手あまたってこと?と思ってしまいます。それに、「ハーバード・ビジネスレビュー」誌が、データサイエンティストを「21世紀で最も魅力的(セクシー)な職業」と書いたものだから、その認知度が進んだのです。  でも、このデータサイエンティストという職業には、決まった定義が存在しないようです。色んな背景を持った人たちがデータ分析に携わってきたから、当然と言えば当然です。今は流行だから、何でもありの状態になっていますが、その内淘汰されていくのでしょう。ただ、統計学やITに関する専門知識を持っているだけでは十分ではないと言われています。「統計学×IT×ビジネスの領域横断のクロス人材」(橋本大也)という人もいれば、「データサイエンティストとは、自分に関わる人すべてが理解できる言葉でコミュニケーションを図り、言葉と視覚、理想的にはその両方を使って、データで物事を語るという特殊なスキルを持つ人」という人(先の「21世紀で最も魅力的(セクシー)な職業」を書いた人たち)もいます。後者はビジネスに関する知識やスキルまで要求していないようですが、前者はマーケティングを含むマネージメントの知見が要ります。