銀座で働くデータサイエンティストのブログ
UCI機械学習リポジトリのデータ(など)で遊ぶ(3):クレジットカードの加入審査データ
ご本人さまは存じ上げないのですが、というか、世の中のほとんどの人は、そもそも他人なのですけど、この方は、僕のような俗人データ分析者では足元にも及ばないような、データサイエンティストの中でもトップクラスのお方のようです。で、以下、自分の体験談とともに感想。
自分でも、職種がら、時間があるときにこの手の分析をやる時がある。で、僕の場合、データを整形するのは、もっぱらSQL。それを、サーバーにあるDB2に読み込ませ、データをcsvとして出力する。最後に、SASサーバーにcsvを保存して、元データを転置したり、欠損値を補完したり、入ってしまったごみデータを削除したりして、最後の最後にいくつかのモデルで計算して結果を比較しますね。どの計算方法を使ってみるかは、正直、どのアプリを会社が契約しているか次第。今は、SAS EMを契約しているので、ロジスティク回帰と勾配ブースティング(正式名称は不明)、ニューラルネットといったところでしょうか。他にも、いくつかありますが、使い方はよくわかりません。なお、今の会社は、PCは会社のものという認識なので、勝手にRのようなフリーソフトを入れることはご法度なのです。しかし、よく思うのですが、Rをビジネス用途でつかっても良いのでしょうか。
こういう言い方が正しいかわからないけど、2値判別問題を計算するとき、どのくらいのモデルで正解とすべきか?が、正直、自分の中でよくわからない。言い換えれば、これらは予測ものなので、どの程度過去データに当てはめれば合格と言えるのかが、よくわからない。なぜならば、いつも、たった一人で計算しているから。
なんとなくだけど、変数をうまく変換し、欠損値を保管してやると、今いつも使うデータならば、ROC曲線以下面積で0.9位は、まあ簡単にでる。そして、簡単にでるので、これでいいのかなーとよく思う。けど、比較対象がないので、よくわからない。で、この方の計算結果を見ると、正答率が0.9位になっているので、まあ、出して恥ずかしくないレベルがこの辺なのかなーと初めて合点がいったのでございました。
-----------------
よく思うけど、マーケティング関連で、SASなりRなりだけを使って分析する人は恵まれているなあと。自分の場合、仕事の9割くらいは、ちょっとしたクロス表で話のケリがつく。もちろん、丁寧にやろうと思えば、モデルを使おうになるんだろうけど、依頼者(経営層や商品企画)の肌感覚や理解度、知りたい欲求度合を考えると、すでに手あかがついている変数で、ちょちょっとSQLをいじり、エクセルでクロス表や、気を利かせてこぎれいなグラフをパワポにはってコメントを書いてあげれば、だいたい要望を満たすことができる。となると、モデリングなんかめんどくさくってやってられない。逆に言えば、モデリングをしないことには解決できない深淵かつ興味深いテーマだけど分析できる方は、なんて恵まれた環境にいるのだろうと、日々、うらやましいばかりなのでございます
-----------------
さらに話は続く。
実は半年強くらい時間をかけて、某社とモデリング系の分析コラボをやった。正直な話、どんなに長くても2か月くらいで終わると踏んでいたのだが、人に言うと、罵詈雑言があふれ出てしまうような理由で、ここまでの時間がかかってしまったのだ。まあ、自分がお人好しなのが悪いので、それはよい。で、思ったのが、やっぱり問題意識って大事だよなってこと。基本、コラボ先で計算してまとめてもらうテイだったのだけど、なんというか、業界に対する知識が少なく、かつ、今回のような分析(STP)に対する経験も少ないようで、コラボ先企業の結果たるや惨憺たるもので、やり直した数は知れず、何とかたどり着いた結論さえ社内に公表することができないレベル。そして、結局、自分で作り直すハメに陥る・・・
まあ、仕方ないといえば、そうなんですよ。だって、よその会社のビジネスに何かを言うんだから。よその会社のことなんて、ちょっとデータを見たってわかるわけないから。そして、きっと、自分も、よその会社の分析をしていた時は、こうだったんだろうなあ~と感慨深くなったのでありました。
0 件のコメント:
コメントを投稿