2011-08-27

データマイニングエンジニアの求人3

2月ごろに、新興IT企業で、データマイニングエンジニアの求人があると書きました。その結果、どういうわけか、わがブログの最大の検索キーワードは、「データマイニングエンジニアの求人」となったのでございます。

で、先ほど、改めて「データマイニマイニングエンジニア 求人」というキーワードで、Google先生にいろいろ聞いてみした。すると、新興IT企業で、データマイニングエンジニアの求人がさらに増えているようです。たとえば、こんなもの。

リクナビTech総研 
2100万会員モバゲータウンはデータマイニングの宝の山
http://rikunabi-next.yahoo.co.jp/tech/docs/ct_s03600.jsp?p=001829

ははは、勢いが良くて結構ですねーーー
ほかにも、Cookpadとか、Greeとか、それっぽい会社が求人をてるよう。

なんというか、人の商売にケチをつけるつもりはないのですが、以下感想。

思えば、データマイニングブームは、これで2回目かも、、、。で、初回は、リレーショナルデータベースやPOSが普及し始めた1990年代。で、大規模にRDB(やPOS)を導入したのは、通販・小売チェーン(CVS)あたり。で、その当時も、

「これで、データはそろった。後は、分析して商売に生かせば、更に利益が増える。まさにPOSは宝の山だ」

といっていた・・・・と推測するのですよ。(というのも、当時のことは、伝え聞くだけ)。で、さて、どうなったのでしょうか?

データなんて、ほとんど活用されておりません

まあ、全く使ってない訳ではない。素朴な指標(合計とか、簡単な(Ex.性年齢別)平均)は、みんな見ています。でも、そこから先、多変量をかけることは、ほとんどやりません。というか、そんな、ややこしいこと、到底できませんし、理解できません、やってられません。

活用が進まなかった理由は、いくつかあると思う。

(1)出てきた結果が当たり前すぎた
これは、本当によく聞く話。当たり前というのは、こういう意味です。

「データに、多変量をかけてみました。がしかし、合計とか平均とか構成比でも分かる結果しか出てきませんでした」

でも、これはある意味当然。というのも、分析とは、データをまとめたり、分類したり、結果に対する効果を調べる作業だから。で、その作業に使うのが、多変量を使えない人は、グラフを目で見て、アレコレ考える。けど、多変量を使える人は、多変量を使う・・・だけ。まあ、多変量を使えば早く仕事が終わるかもしれない。けど、分析に求められるのは、Surpriseの方が大きいので、あまり重要でないかもね。

あと、もっと言えば、凡人は、理解できる分析結果しか報告しないので、多変量で思いもよらない交互作用がでても、多くの場合無視するだけ。

(2)大発見を受け入れる素地がなかった
実は、大発見とは、多くの当たり前の分析結果の積み上げた結果起こるではないのか、、、と思われます。というのも、大発見とは、過去の常識を覆す見方だから。つまり、現状の常識を疑っていないと、突拍子もない発見を受け入るはずがない。誰も受け入れなければ、大発見が真実でも、何の意味もない。その意味では、分析結果から発見があるとは、発見を受け入れる素地があることが必要条件なのでしょう。


(3)概念が難しい
あと、そもそも、分析で使う基礎概念が難しいのです。要因(原因)・効果(間接効果)・因果関係・相関関係のような(社会)科学の分析概念が通じないことが多い。となると、多変量解析の分析報告が、いったい、何を意味するのか、全く理解できない。で、ここでつまづくと、本当に、どーーーにもならない。私、この、どーーーにもならない場面に、本当に何回も出くわしました。

「あの、、、要因、、、、ってなんですか?」

で、そういう人に限ってオーソドックスな結果を見せると、「こんな事実、俺は前から知っていた」と言うのですよ。でも、オレが知らない結果が出ると「こんな結果、信じられない」となるので、タチが悪い。

----------------
ということで、データに統計処理をかけると、カネになる分析結果が出ると考えがちです。が、おそらく技術的な面でも、分析結果の活用場面においても、そう簡単に問屋はおろさない気がする。

モバゲータウンに即して考えると、そこがデータの山なのは事実なのです。が、その山が本当に宝の山なのかは、はたまた、宝の山に転化できるかは、いまだ未知数。でも、かつてPOSブームに沸いたRDB業界の二の舞にならないことを祈るばかりなのでしたーー

0 件のコメント:

コメントを投稿