そぞろ日記: 商売の邪魔です

ちきりんのブログは、いつもエキセントリックで、いつもインスパイアされてしまいます。で、今日のネタはこれ

Chikirinの日記

2014年4月23日ビッグデータとAI

最初から分析目的があって収集されたデータは、性別、年齢、買った商品、時刻・・・といったふうに、あらかじめ決められた特定項目について整然と情報が集められます。なので収集された後、そのままデータベースソフトに格納できます。

しかし、あらたに蓄積（注目）されるようになった（ビッグ）データは構造化されていません。

(中略）

人間は「自分の専門分野をいくつか決め、その分野に関する知識や経験を学び」、「それに基づいて仮説をたて、それを検証するためにデータを分析」しますが、A I はデータの分析を通してあらゆる分野の（＝特定の分野に限定せず）新知識をどんどん獲得し、その知識を分野横断的に使った分析をする。

(中略）

「構造化されたデータを、特定分野の知識や経験をもつ人が仮説をたてて分析する」という、人間のやり方では不可能だったことが可能になり、これからは、人間の思考では思いもつかないようなあっと驚く法則性やトレンドが明らかにされるのかも。

(省略）

いつも同じようなことを書いている気もするが、心の声なので気にしないでくだされ
で、思ったこと。

1. 構造化されていないデータとは、構造化する前のデータではないのか？

構造化したデータ、つまりRDBのテーブルに入るデータとは、なにが重要な要因かわかったから構造化することができたのだと思う。逆に考えると、重要な要因がわからないと、分析のためにデータを構造化することはできない。つまり、非構造化データとは、単に、海のものとも山のものとも分からないデータだから、構造化できていないのであり、もし非構造化データの中に重要な事実が存在するならば、構造化できるようにデータを整理する必要がある、と思う。そして、機械学習は、データを構造化するためのツールとして使うなら共感できるけど、非構造化データから、使えるインサイトがいきなりでてくるとは、ちょっと想像できない。

2. 構造化されていないデータだから、重要な事実がかくされてるのか？

まあ、だれも手を付けていないものの中に重要なものがあるかもしれないというのは、そうかもしれない。けど、逆に、手を付けてもどうしようもなさそうなデータだから、だれも手を付けないだけなのかもしれない。あるいは、分析するためにデータを整理するために莫大な時間がかかりそうだけど、何が出てきそうか全く想像がつかないから、何もしないのかもしれない。機械学種は、効いている要因をおおざっぱに計算してくれるかもしれないけど、本当に知りたいその先のインサイトは、ちょっと無理なのではないか。なんとなく、機械学習の結果は、人の理解度まで考慮すると、結局のところ、性年齢あたりになる気がしなくもない。

3. 機械学習で非構造化データを分析すると、重要なインサイトがでてくるのか？

面白い事実とは、おかれた立場や考え方により、かなり違うのではないか？とよくおもう。機械学習は何か出すかもしれないが、それはインサイトの利用者の興味関心とは全く別の(AICやBICのような)事情で、結論を出す気がする。あるいは、機械学習で膨大なデータを分析した結果、体験的な事実を上書きするような事実をだすかもしれない（悪いことではない）。因子・主成分・クラスタ分析をやることと、分析者やインサイト利用者にとって重要だったり興味深い事象が出ることは、基本的に関係ないし、むしろ、経験豊かなマーケターの感覚と多変量の分析結果とはよく似ていることが多い気がする。

4. 簡単に言うと商売の邪魔なんです

チキリンのようなことを誰かが言いまくると、会社の中で、真に受ける人がいて迷惑なんです。煮ても焼いても食えないようなデータや事実でさえ、データ分析すると、なにか素晴らしいお宝が出てくると勘違いする人がいるわけですよ。まずいラーメン屋の理論でいくと、ほとんどの人（99％）がマズイとおもうラーメンを、おいしいと思える奇特な人をデータ分析して探してこいといったことなのですが、まずはラーメンをおいしくしてくださいとお願いするばかりなのでございます。

まあ、自分のような三流アナリストは、ビッグデータ祭りで、すばらしい実績をあげることはできなさそうです。

以上、おわり

そぞろ日記

2014-06-18

商売の邪魔です

0 件のコメント:

コメントを投稿