2014-11-09

価値がある分析とはなに?

転職後、仕事の内容や会社の雰囲気にもだいぶ慣れ、時間も気持ちもかなり余裕が出てきた。ということで、数年来、ぜんぜんできていなかった統計の勉強のために、会社の行きかえりでつれづれ本を読んでいる

で、いま読んでいるのがこの本

一般化線形モデル・階層ベイズモデル・MCMC (2012/5)
久保 拓弥


まだ読み始めたばっかりだけど、正直、楽しい。難しい内容なんだけど、寄り添うような、やさしい語り口で書いてあるのが文系の僕としてはとっても嬉しい。前半は、Agrestiのカテゴリデータ解析入門と似ている。というか、Agrestiも、彼の本で、モデリングは仮説検定よりもずっと役に立つと書いていたし、実際、モデルのあてはめや変数選択・縮約について丁寧に説明してあったので、まあ当然といえば当然かもしれない。

といいつつ、今日はそんなことを書きたいわけじゃない。この本を読んでいて、小難しいテクを使うことの是非について思いをめぐらしたのだ。

私は、データ分析とは、分析対象の課題を解決するためにおこなうものだと思っている。もちろん、データ分析だけを研究している統計学者がいることはよく理解している。けど、ぼくはサラリーマンなので、おおざっぱにいうと、数学的な理論やテクニカルなところにはあまり興味がないし、そもそも、バカなのでよくわからない(ただし、理論が重要ではないという意味ではない、この本が言うように正しく統計モデルをつかうことは、統計ユーザーの責務なのだ)。そう考えると、分析対象と分析技術で、このようなマトリックスを描くことができるはずだ。




分析といったとき、じつは2つ意味がある。一つは、分析課題、もう一つが分析方法。統計学者は分析方法の開発がミッション。逆に言えば、分析方法を第一優先となるのは、統計学者だけだと思う。その他のデータ分析者は、分析課題にまずコミットする必要があるはずだ。となると、これらの2要因の優先順位は、こんなことになると思う。

まず、課題も方法も新しければ、それはそれは素晴らしい。科学の発展とは、こういうことだ。

次に重要なのは、方法が古くても、課題が新しいパターンだ。別に目新しいテクを使ってなくても、新しい課題を解けるというもの。たぶん、これはセンスがいいってパターンで、瓢箪から駒というかコロンブスの卵的なやつだ。コストの小ささとリターンの大きさから考えると、サラリーマン的人生では、一番ハッピーになれる人かもしれない。

次にありがちなのは、方法も課題も古いパターン。まあ、一見ダメそうなんだけど、サラリーマンとは、普通、こんなもんだと思うので、何も言うべきことはない。そうそう、古い方法論とは、エクセルで計算できるようなレベル(構成比)とか、回帰・因子・クラスター・決定木といった、数十年前に開発された手法のことです。あと、普通、分析者は依頼者(サラリーマンならば、会社の取締役など経営層)に対して説明責任を負うので、小難しいテクを使い、分析結果を説明できないというのは、選択肢としてありえない。使いこなせる技術を正しく理解して使うというのは、手間という面でも、わかりやすさという面でも、とっても重要なことだおもう。(分析結果を説明できるとは、社内のだれもが知っている要因だけを使って、たった1つの最大3×3×3のクロス表だけで、分析結果を説明して納得してもらうことでございます)

最後は、課題は古いけど、方法が新しいパターン。方法が新しいとは、聞いたこともないような機械学習や統計学を使うことだ。実は、これは、評価が難しい。というか、よっぽどのことがない限り、わざわざこんなパターンに手を出す気がしれない。

もちろん、たまには目新しい技術に取り組む必要があると思う。だけど、それも、なにかの課題があってのことという気がする。分析が好きな人は、すぐに目新しい手法を取り入れたがるけど、個人的には、それは、分析対象の課題に向き合うということから、データ分析者が逃げている気がしてならない。

こういう逃げ分析者は、冷たいことを言うと、外科医でたとえるならば、メスは超うまく使えるとけど、何が病巣かは判断できませんといっているに等しく、訳も分からず病巣でない部分、たとえば正常な神経、、、をすごく正確にぶった切る可能性があり、そんな人は、何もしないほうがましなのではないか?と思うわけです。

といったことを、つれづれ考えた晩秋の夜

-------------

とおもったけど、きっと、自分が想像もできない分野もあり、そういう分野での分析も、どんどんうまれつつある昨今なので、きっと、思いもよらない展開がこの先増えていく気もしなくもない、といった感じでモヤモヤした気分の日曜の夜

-------------

またしても、その後、モヤモヤ考えたのだが、分析結果の活用といったとき、2種類あるかもしれない。一つは、今のところどうすればよいか一向に見当がつかないけど、分析結果を未来の打ち手のヒントにしたいとき。もう一つは、どうすればいいかは明確にわかっているけど、人の手ではやり切れいない時。この二つ。

ビッグデータといったとき、この二つがごっちゃになっている気がする

後者は、まあ、純粋に統計処理のはなしとして扱えるわけで、すでに、理論や技術が確立していれば、あとはそれを問題に適用するだけなので、話としては単純な類かもしれない。もちろん、現実にモデルをちゃんと当てはめるのは難しいけど、なにすればよいかは明確。なにか時系列データに、何やら高度な分析を当てはめた結果、何やらパラメーターがきれいに推定された、といったたぐいの話である。ただし、何やらパラメーターがきれいに推定できること自体に、常に高いビジネス価値があるかどうかは、分析が置かれた文脈次第(依頼者のニーズ・社内のパワーバランス・上司たちの意向など・・)。いずれにしても、ビッグデータ話のうち、現実的な活用方法はこれにちがいない。

もう一つは、何が問題かはわからないけど、ビッグデータの中に何か答えがあるはずだというパターン。これは、なにを解くべきかすら分かっていないため、どんな分析技術を使うべきかも結論が出ないという悪問だ。これは、実は技術以前の問題なので、本来的には、データ分析では答えが出っこないはず。こういうものにケッタイなテクニックを大上段に振りかざして分析結果を報告すると、オーディエンスにドン引きされるか、敵意満載に否定されるかのどちらかという気がする。そういう意味で、ビッグデータを分析してなにかヒントをだせ?と言われるときは、期待も大きい結果、失望はさらに大きくなるため、きわめて慎重な対応方法が必要なのではないか、と思う今日このごろなのです。










0 件のコメント:

コメントを投稿