2014-11-29

2014年11月27日 データサイエンティストシンポジウム

データサイエンティストシンポジウムに、自腹で行ってきた。もちろん、経費で行ければ、そりゃまあうれしいのだが、わが社は極めてビンボーなのと、会社に頼って生きていくのも癪に障るので、自腹での参加となった

午前中すこしだけ業務をこなし、午後から会場へ。で、聞いた講演はこれら。


ビッグデータ活用のための機械学習モデリング技術
大阪大学 鷲尾 隆 氏

DSS4J (Data Science School for Japan) スタートアップに向けて!
九州大学大学院 村上 和彰

我が国におけるデータ分析人材の育成と活用
統計数理研究所 副所長 丸山 宏 氏

賢く増やすと減らすはビッグデータ解析の基本
統計数理研究所長 樋口 知之 氏

【共通/パネルディスカッション】
企画委員会「現場のデータサイエンティストが望むこと」


といったところ。
で、以下感想

お金を払ったので、ビジネス系の講演は、あえて聞かなかった。正直、どっかの会社の宣伝としか思えない内容もあり、なんで金払って、こいつらの夢を聞かなきゃいけないんだと思ったからだ。ただし、なにを話したか正直よくわからないので、ひょっとしたら聞く価値があったかもしれない。

先生たちの話は、期待通りというべきか、やっぱりというべきか、という感じだった。正直な話、ぱっと聞いてもよくわからない内容だった。だけど、やっぱり最先端の話題に触れるというのは、それはそれで刺激になるし、楽しいものだ。

なんとなく思ったのは、自分がいかに雑な分析してるかということだ。いや、僕が会社でやってることは、もはや分析でも何でもないかもしれない。正直な話、企業で、あるいは自分が関わるマーケティング系分析で、きちんとした分析結果を求められることなんてまずない。というか、なにがきちんとした結果かも、会社の人たち、依頼者側は知る由もない。そういえば、就職した当初は、会社での分析が雑すぎて、ほとほと嫌気がさしたものだ。慣れとは恐ろしい。

実は、意思決定をするということと、きちんと統計解析をおこなうことは、マーケティングや経営に限って言えば、いまのところ別物だ。仮説検定やモデリングをしなくても、大体の傾向が感覚的にわかれば、経営者は意思決定する(良し悪しは別)。意思決定とは、マーケティングと経営においては、科学的というよりかは、決断力と政治力の世界だ。意思決定が命に係わる製薬や自動車の品質管理、金勘定に直接かかわる金融では、仮説検定・モデリングの重要性は格段に増すと思う。そんな人肌感満載のマーケティング・経営分野にも、グーグルやFacebookといったITベンチャーの成功を通じて、徐々に科学的な意思決定が浸透しつつあり、だからデータサイエンティンスト協会ができたのだろう。だからといって、古くからある日本企業が、すぐに変わるとも思えないのだけど、確実に波は来つつある。

計算機科学や統計学は、データサイエンティストがブームになる前から存在していた。実際、いま企業でデータ分析に係わる大多数の人は、分野を問わず、ブーム以前から統計学を地道に勉強してきた人たちだ。マーケティング・経営分野の統計家たちは、ブーム以前は、周りからオタクと呼ばれないように、会社の中でもことさら専門性を打ち出すこともなく、ひっそりと生きてきた。分析結果は、できる限り統計的な考え方は表に出さず、マーケティングや経営における定性的な分析含意を伝えることに心を砕いてきた。それもこれも、意思決定者が分析結果を心から納得できて初めて次のアクションにつながると考えているからで、アクションにつながらない分析結果など何の役にも立たないと信じているからだ。

昨今のブームは、いまさら感満載なのと、最近、ブームに乗ってマーケティング分野に参入してきた他分野の分析者(博士・ITなど)に、自分の畑を荒らされているようで、目障りなかんじもしなくないし、自分たちが我慢してきたテクニカルな面(といっても、それほどテクニカルでもないかもしれない)を、これみよがしに堂々とひけらかして、ホントどうなんだろうと思うことも少なくない。だけど、きっと、このブームは自分にとって追い風になるはず、と思った木曜の夜。

2014-11-09

価値がある分析とはなに?

転職後、仕事の内容や会社の雰囲気にもだいぶ慣れ、時間も気持ちもかなり余裕が出てきた。ということで、数年来、ぜんぜんできていなかった統計の勉強のために、会社の行きかえりでつれづれ本を読んでいる

で、いま読んでいるのがこの本

一般化線形モデル・階層ベイズモデル・MCMC (2012/5)
久保 拓弥


まだ読み始めたばっかりだけど、正直、楽しい。難しい内容なんだけど、寄り添うような、やさしい語り口で書いてあるのが文系の僕としてはとっても嬉しい。前半は、Agrestiのカテゴリデータ解析入門と似ている。というか、Agrestiも、彼の本で、モデリングは仮説検定よりもずっと役に立つと書いていたし、実際、モデルのあてはめや変数選択・縮約について丁寧に説明してあったので、まあ当然といえば当然かもしれない。

といいつつ、今日はそんなことを書きたいわけじゃない。この本を読んでいて、小難しいテクを使うことの是非について思いをめぐらしたのだ。

私は、データ分析とは、分析対象の課題を解決するためにおこなうものだと思っている。もちろん、データ分析だけを研究している統計学者がいることはよく理解している。けど、ぼくはサラリーマンなので、おおざっぱにいうと、数学的な理論やテクニカルなところにはあまり興味がないし、そもそも、バカなのでよくわからない(ただし、理論が重要ではないという意味ではない、この本が言うように正しく統計モデルをつかうことは、統計ユーザーの責務なのだ)。そう考えると、分析対象と分析技術で、このようなマトリックスを描くことができるはずだ。




分析といったとき、じつは2つ意味がある。一つは、分析課題、もう一つが分析方法。統計学者は分析方法の開発がミッション。逆に言えば、分析方法を第一優先となるのは、統計学者だけだと思う。その他のデータ分析者は、分析課題にまずコミットする必要があるはずだ。となると、これらの2要因の優先順位は、こんなことになると思う。

まず、課題も方法も新しければ、それはそれは素晴らしい。科学の発展とは、こういうことだ。

次に重要なのは、方法が古くても、課題が新しいパターンだ。別に目新しいテクを使ってなくても、新しい課題を解けるというもの。たぶん、これはセンスがいいってパターンで、瓢箪から駒というかコロンブスの卵的なやつだ。コストの小ささとリターンの大きさから考えると、サラリーマン的人生では、一番ハッピーになれる人かもしれない。

次にありがちなのは、方法も課題も古いパターン。まあ、一見ダメそうなんだけど、サラリーマンとは、普通、こんなもんだと思うので、何も言うべきことはない。そうそう、古い方法論とは、エクセルで計算できるようなレベル(構成比)とか、回帰・因子・クラスター・決定木といった、数十年前に開発された手法のことです。あと、普通、分析者は依頼者(サラリーマンならば、会社の取締役など経営層)に対して説明責任を負うので、小難しいテクを使い、分析結果を説明できないというのは、選択肢としてありえない。使いこなせる技術を正しく理解して使うというのは、手間という面でも、わかりやすさという面でも、とっても重要なことだおもう。(分析結果を説明できるとは、社内のだれもが知っている要因だけを使って、たった1つの最大3×3×3のクロス表だけで、分析結果を説明して納得してもらうことでございます)

最後は、課題は古いけど、方法が新しいパターン。方法が新しいとは、聞いたこともないような機械学習や統計学を使うことだ。実は、これは、評価が難しい。というか、よっぽどのことがない限り、わざわざこんなパターンに手を出す気がしれない。

もちろん、たまには目新しい技術に取り組む必要があると思う。だけど、それも、なにかの課題があってのことという気がする。分析が好きな人は、すぐに目新しい手法を取り入れたがるけど、個人的には、それは、分析対象の課題に向き合うということから、データ分析者が逃げている気がしてならない。

こういう逃げ分析者は、冷たいことを言うと、外科医でたとえるならば、メスは超うまく使えるとけど、何が病巣かは判断できませんといっているに等しく、訳も分からず病巣でない部分、たとえば正常な神経、、、をすごく正確にぶった切る可能性があり、そんな人は、何もしないほうがましなのではないか?と思うわけです。

といったことを、つれづれ考えた晩秋の夜

-------------

とおもったけど、きっと、自分が想像もできない分野もあり、そういう分野での分析も、どんどんうまれつつある昨今なので、きっと、思いもよらない展開がこの先増えていく気もしなくもない、といった感じでモヤモヤした気分の日曜の夜

-------------

またしても、その後、モヤモヤ考えたのだが、分析結果の活用といったとき、2種類あるかもしれない。一つは、今のところどうすればよいか一向に見当がつかないけど、分析結果を未来の打ち手のヒントにしたいとき。もう一つは、どうすればいいかは明確にわかっているけど、人の手ではやり切れいない時。この二つ。

ビッグデータといったとき、この二つがごっちゃになっている気がする

後者は、まあ、純粋に統計処理のはなしとして扱えるわけで、すでに、理論や技術が確立していれば、あとはそれを問題に適用するだけなので、話としては単純な類かもしれない。もちろん、現実にモデルをちゃんと当てはめるのは難しいけど、なにすればよいかは明確。なにか時系列データに、何やら高度な分析を当てはめた結果、何やらパラメーターがきれいに推定された、といったたぐいの話である。ただし、何やらパラメーターがきれいに推定できること自体に、常に高いビジネス価値があるかどうかは、分析が置かれた文脈次第(依頼者のニーズ・社内のパワーバランス・上司たちの意向など・・)。いずれにしても、ビッグデータ話のうち、現実的な活用方法はこれにちがいない。

もう一つは、何が問題かはわからないけど、ビッグデータの中に何か答えがあるはずだというパターン。これは、なにを解くべきかすら分かっていないため、どんな分析技術を使うべきかも結論が出ないという悪問だ。これは、実は技術以前の問題なので、本来的には、データ分析では答えが出っこないはず。こういうものにケッタイなテクニックを大上段に振りかざして分析結果を報告すると、オーディエンスにドン引きされるか、敵意満載に否定されるかのどちらかという気がする。そういう意味で、ビッグデータを分析してなにかヒントをだせ?と言われるときは、期待も大きい結果、失望はさらに大きくなるため、きわめて慎重な対応方法が必要なのではないか、と思う今日このごろなのです。