2014-12-08

福山☆冬の大感謝祭 其の十四 初参戦けってぇぃーうぃっとぅっ

福山雅治のライブに行ってみることにした

2014年12月23日
男の、男による男のための聖夜にして野郎夜
Hotel de fukuyamaⅢ 横浜メンズ館


福山雅治の東京FMの番組(taklking FM)は結構好きで、かなりの頻度で聞いている。
いつ一番初めに聞いたか、まったく覚えていない。だけど、一番古い記憶はあって、それは、たぶん1998年ごろのはず。就職して翌年の日曜午後、大学の同級生みんなでバーベキューに行った。その帰り車の中で、一緒に行った女の子が、この番組を聞きたいといったのをよく覚えている。

その当時、すでに福山のトークは結構面白いと思っていた。何が面白いかといえば、居酒屋で男ばかりで飲んでいる感じ、まあ単純に言えばバカ&エロまるだし。いわゆるゲスなトークだ。でもそれが気取ってなくてよい

実は、べつに福山雅治のファンでも何でもない。CDもかったことない。曲もラジオで聞くくらい。カラオケは歌うかもしれない、とくに昔の曲。なぜならば、簡単、いや歌いやすいからです。最近の曲はよくわかりませんが。

そんな感じだから、彼の番組を知ったのも単なる偶然。僕にとって日曜午後の一番のお目当ては、山下達郎のSunday song bookとユーミンのFor your departureとSweet discoveryだった。山下達郎のSunday song bookは、音楽好きな喫茶店、バーのマスターのような感じで、正直なところ、かれの音楽談義の微妙なニュアンスはよくわからないけど、それはそれでとっても楽しい。ユーミンのSweet discoveryは、リスナーからのこれ以上ない位にジメジメした恋愛相談、----記憶では不倫系がおおかったはず-----を、自分の気分も落ち込み気味な日曜の夕方に、黄昏ながら聞くのが何とも好きだった。

しかし、前の会社でも今の会社でも、不倫している人の話を耳にすることがあるが、まあ、よくやるなーという感じ。しかし、男のほうは、どうやって家庭と彼女を両立するのだろうか?あるいは、どうやって若い女の子をひっかけるのだろうか?とすごく不思議にと思うことがある。40歳にもなって、結婚どころか彼女すらできない自分にとって、それはそれは、到底はかりしれない世界なのである。そうそう、Talking FMのHotel de fukuyamaは好きなコンテンツの一つなのだが、ちょうどこのコンテンツが始まった2012年ごろ?、すごく身近な同僚にすごく怪しい行動をとるの二人がいて、島津ゆたかのホテルをきくと、いまだにその時のことが走馬灯のようによみがえるのです。

まあ、そんな自分にとって、聖夜にして野郎也は、負け戦感満載で、ちょっとどころか、かなりみじめな感じもしないこともない。だけど、仕事とか、勉強ばかりしてても、やっぱりしょうがないわけで、こういう考え方が話をこじらせのも事実なわけで、行動を少しづ使えることによって、自分の考え方も変えてきたいなあ、というかを変えていく必要があるのではないかと思った日曜の夜。

2014-11-29

2014年11月27日 データサイエンティストシンポジウム

データサイエンティストシンポジウムに、自腹で行ってきた。もちろん、経費で行ければ、そりゃまあうれしいのだが、わが社は極めてビンボーなのと、会社に頼って生きていくのも癪に障るので、自腹での参加となった

午前中すこしだけ業務をこなし、午後から会場へ。で、聞いた講演はこれら。


ビッグデータ活用のための機械学習モデリング技術
大阪大学 鷲尾 隆 氏

DSS4J (Data Science School for Japan) スタートアップに向けて!
九州大学大学院 村上 和彰

我が国におけるデータ分析人材の育成と活用
統計数理研究所 副所長 丸山 宏 氏

賢く増やすと減らすはビッグデータ解析の基本
統計数理研究所長 樋口 知之 氏

【共通/パネルディスカッション】
企画委員会「現場のデータサイエンティストが望むこと」


といったところ。
で、以下感想

お金を払ったので、ビジネス系の講演は、あえて聞かなかった。正直、どっかの会社の宣伝としか思えない内容もあり、なんで金払って、こいつらの夢を聞かなきゃいけないんだと思ったからだ。ただし、なにを話したか正直よくわからないので、ひょっとしたら聞く価値があったかもしれない。

先生たちの話は、期待通りというべきか、やっぱりというべきか、という感じだった。正直な話、ぱっと聞いてもよくわからない内容だった。だけど、やっぱり最先端の話題に触れるというのは、それはそれで刺激になるし、楽しいものだ。

なんとなく思ったのは、自分がいかに雑な分析してるかということだ。いや、僕が会社でやってることは、もはや分析でも何でもないかもしれない。正直な話、企業で、あるいは自分が関わるマーケティング系分析で、きちんとした分析結果を求められることなんてまずない。というか、なにがきちんとした結果かも、会社の人たち、依頼者側は知る由もない。そういえば、就職した当初は、会社での分析が雑すぎて、ほとほと嫌気がさしたものだ。慣れとは恐ろしい。

実は、意思決定をするということと、きちんと統計解析をおこなうことは、マーケティングや経営に限って言えば、いまのところ別物だ。仮説検定やモデリングをしなくても、大体の傾向が感覚的にわかれば、経営者は意思決定する(良し悪しは別)。意思決定とは、マーケティングと経営においては、科学的というよりかは、決断力と政治力の世界だ。意思決定が命に係わる製薬や自動車の品質管理、金勘定に直接かかわる金融では、仮説検定・モデリングの重要性は格段に増すと思う。そんな人肌感満載のマーケティング・経営分野にも、グーグルやFacebookといったITベンチャーの成功を通じて、徐々に科学的な意思決定が浸透しつつあり、だからデータサイエンティンスト協会ができたのだろう。だからといって、古くからある日本企業が、すぐに変わるとも思えないのだけど、確実に波は来つつある。

計算機科学や統計学は、データサイエンティストがブームになる前から存在していた。実際、いま企業でデータ分析に係わる大多数の人は、分野を問わず、ブーム以前から統計学を地道に勉強してきた人たちだ。マーケティング・経営分野の統計家たちは、ブーム以前は、周りからオタクと呼ばれないように、会社の中でもことさら専門性を打ち出すこともなく、ひっそりと生きてきた。分析結果は、できる限り統計的な考え方は表に出さず、マーケティングや経営における定性的な分析含意を伝えることに心を砕いてきた。それもこれも、意思決定者が分析結果を心から納得できて初めて次のアクションにつながると考えているからで、アクションにつながらない分析結果など何の役にも立たないと信じているからだ。

昨今のブームは、いまさら感満載なのと、最近、ブームに乗ってマーケティング分野に参入してきた他分野の分析者(博士・ITなど)に、自分の畑を荒らされているようで、目障りなかんじもしなくないし、自分たちが我慢してきたテクニカルな面(といっても、それほどテクニカルでもないかもしれない)を、これみよがしに堂々とひけらかして、ホントどうなんだろうと思うことも少なくない。だけど、きっと、このブームは自分にとって追い風になるはず、と思った木曜の夜。

2014-11-09

価値がある分析とはなに?

転職後、仕事の内容や会社の雰囲気にもだいぶ慣れ、時間も気持ちもかなり余裕が出てきた。ということで、数年来、ぜんぜんできていなかった統計の勉強のために、会社の行きかえりでつれづれ本を読んでいる

で、いま読んでいるのがこの本

一般化線形モデル・階層ベイズモデル・MCMC (2012/5)
久保 拓弥


まだ読み始めたばっかりだけど、正直、楽しい。難しい内容なんだけど、寄り添うような、やさしい語り口で書いてあるのが文系の僕としてはとっても嬉しい。前半は、Agrestiのカテゴリデータ解析入門と似ている。というか、Agrestiも、彼の本で、モデリングは仮説検定よりもずっと役に立つと書いていたし、実際、モデルのあてはめや変数選択・縮約について丁寧に説明してあったので、まあ当然といえば当然かもしれない。

といいつつ、今日はそんなことを書きたいわけじゃない。この本を読んでいて、小難しいテクを使うことの是非について思いをめぐらしたのだ。

私は、データ分析とは、分析対象の課題を解決するためにおこなうものだと思っている。もちろん、データ分析だけを研究している統計学者がいることはよく理解している。けど、ぼくはサラリーマンなので、おおざっぱにいうと、数学的な理論やテクニカルなところにはあまり興味がないし、そもそも、バカなのでよくわからない(ただし、理論が重要ではないという意味ではない、この本が言うように正しく統計モデルをつかうことは、統計ユーザーの責務なのだ)。そう考えると、分析対象と分析技術で、このようなマトリックスを描くことができるはずだ。




分析といったとき、じつは2つ意味がある。一つは、分析課題、もう一つが分析方法。統計学者は分析方法の開発がミッション。逆に言えば、分析方法を第一優先となるのは、統計学者だけだと思う。その他のデータ分析者は、分析課題にまずコミットする必要があるはずだ。となると、これらの2要因の優先順位は、こんなことになると思う。

まず、課題も方法も新しければ、それはそれは素晴らしい。科学の発展とは、こういうことだ。

次に重要なのは、方法が古くても、課題が新しいパターンだ。別に目新しいテクを使ってなくても、新しい課題を解けるというもの。たぶん、これはセンスがいいってパターンで、瓢箪から駒というかコロンブスの卵的なやつだ。コストの小ささとリターンの大きさから考えると、サラリーマン的人生では、一番ハッピーになれる人かもしれない。

次にありがちなのは、方法も課題も古いパターン。まあ、一見ダメそうなんだけど、サラリーマンとは、普通、こんなもんだと思うので、何も言うべきことはない。そうそう、古い方法論とは、エクセルで計算できるようなレベル(構成比)とか、回帰・因子・クラスター・決定木といった、数十年前に開発された手法のことです。あと、普通、分析者は依頼者(サラリーマンならば、会社の取締役など経営層)に対して説明責任を負うので、小難しいテクを使い、分析結果を説明できないというのは、選択肢としてありえない。使いこなせる技術を正しく理解して使うというのは、手間という面でも、わかりやすさという面でも、とっても重要なことだおもう。(分析結果を説明できるとは、社内のだれもが知っている要因だけを使って、たった1つの最大3×3×3のクロス表だけで、分析結果を説明して納得してもらうことでございます)

最後は、課題は古いけど、方法が新しいパターン。方法が新しいとは、聞いたこともないような機械学習や統計学を使うことだ。実は、これは、評価が難しい。というか、よっぽどのことがない限り、わざわざこんなパターンに手を出す気がしれない。

もちろん、たまには目新しい技術に取り組む必要があると思う。だけど、それも、なにかの課題があってのことという気がする。分析が好きな人は、すぐに目新しい手法を取り入れたがるけど、個人的には、それは、分析対象の課題に向き合うということから、データ分析者が逃げている気がしてならない。

こういう逃げ分析者は、冷たいことを言うと、外科医でたとえるならば、メスは超うまく使えるとけど、何が病巣かは判断できませんといっているに等しく、訳も分からず病巣でない部分、たとえば正常な神経、、、をすごく正確にぶった切る可能性があり、そんな人は、何もしないほうがましなのではないか?と思うわけです。

といったことを、つれづれ考えた晩秋の夜

-------------

とおもったけど、きっと、自分が想像もできない分野もあり、そういう分野での分析も、どんどんうまれつつある昨今なので、きっと、思いもよらない展開がこの先増えていく気もしなくもない、といった感じでモヤモヤした気分の日曜の夜

-------------

またしても、その後、モヤモヤ考えたのだが、分析結果の活用といったとき、2種類あるかもしれない。一つは、今のところどうすればよいか一向に見当がつかないけど、分析結果を未来の打ち手のヒントにしたいとき。もう一つは、どうすればいいかは明確にわかっているけど、人の手ではやり切れいない時。この二つ。

ビッグデータといったとき、この二つがごっちゃになっている気がする

後者は、まあ、純粋に統計処理のはなしとして扱えるわけで、すでに、理論や技術が確立していれば、あとはそれを問題に適用するだけなので、話としては単純な類かもしれない。もちろん、現実にモデルをちゃんと当てはめるのは難しいけど、なにすればよいかは明確。なにか時系列データに、何やら高度な分析を当てはめた結果、何やらパラメーターがきれいに推定された、といったたぐいの話である。ただし、何やらパラメーターがきれいに推定できること自体に、常に高いビジネス価値があるかどうかは、分析が置かれた文脈次第(依頼者のニーズ・社内のパワーバランス・上司たちの意向など・・)。いずれにしても、ビッグデータ話のうち、現実的な活用方法はこれにちがいない。

もう一つは、何が問題かはわからないけど、ビッグデータの中に何か答えがあるはずだというパターン。これは、なにを解くべきかすら分かっていないため、どんな分析技術を使うべきかも結論が出ないという悪問だ。これは、実は技術以前の問題なので、本来的には、データ分析では答えが出っこないはず。こういうものにケッタイなテクニックを大上段に振りかざして分析結果を報告すると、オーディエンスにドン引きされるか、敵意満載に否定されるかのどちらかという気がする。そういう意味で、ビッグデータを分析してなにかヒントをだせ?と言われるときは、期待も大きい結果、失望はさらに大きくなるため、きわめて慎重な対応方法が必要なのではないか、と思う今日このごろなのです。










2014-10-27

ベイズ統計初心者本2冊感想文




史上最強図解 これならわかる!ベイズ統計学 (2012/2)
涌井 良幸 (著), 涌井 貞美 (著)
ナツメ社



図解入門 よくわかる最新ベイズ統計の基本と仕組み (2010/12)
松原望
秀和システム





ベイズ統計初心者本2冊読んでみた
すぐにすたれると思われたベイズ。だけど、微妙なブームが去る様子はまったくない
というわけで、初心者本2冊、さらりと読んでみた

ベイズといえば、統計を勉強し始めて最初のほう、いわばなんとか分布が云々というところでちょっと出てきて以来。練習問題を何題かといてそれっきり。まあ、それは、ベイズ統計というよりも、ベイズの定理だったけど。で、それから、はや十何年。以下、本を読んだ感想

涌井さんの図解最強・・・は、ベイズ統計というよりも、ベイズの定理を、すごく丁寧に説明している。これでわからなかったら、もうどうしようもないと思えるほど。電車の中で立ち読みしながら、暗算で計算方法を追うことができるレベル。かくいう私も、この本の内容を一つ一つ確かめながら読んだら、ベイズの定理が、いったい何者だったのかを、思い出すことができたのであった。ベイジアンネットとか、ベイズ統計学のさわりも、さらりとふれてある。だけど、まあ、かるいご紹介レベルとおもわれる。

松原先生の基本としくみのほうが、やや難しい。最初のほうに、ベイズは簡単ってかいてあったけど、絶対ウソだとおもう。こちらも前半は、ベイズの定理の説明に終始している。だけど、図解最強ほど、懇切丁寧かつ、しつこく解説していない。まあ、かんたんだからこんなんでいいでしょー感が満載か。後半は、ベイズ統計のさわりと応用をさらりと紹介している。事前共役分布(だったか?)をつかうと、かんたんに事後分布を導出できるとか、ベイジアンネットってこう計算するんだよ的な内容が書いてあるけど、淡泊すぎて意味不明。だからといって、マニアックに説明されてもわからないんだけど。まあ、いずれにしても、こんな感じですが、どうでしょう的な内容なわけです

まあ、当たり前といえば、そうなんだけど、この手の本だけで使いこなせるようになるわけでなく、やっぱり、もっと本気度満載なテキストを、それなりにじっくり読んで考える必要はありそうだ。

あと、理論はまあおいておいて、理論を具体例に当てはめた例は、水産系の人たちの話が役に立ちそうな気がする。魚の資源管理の話(どのくらい魚が取れるか?)と、自社顧客の維持(どれくらい買ってくれそうか?カタログの反応率)は、結局同じことだと思うからです。

そうそう、自分が使うとなった時に根本的に疑問なことがある。なにかといえば、STPというかクラスタリングの問題なのです。たいていの場合、わたしは、お客さんがどのクラスターに属するかをいつも考えている。なぜならば、クラスターごとの反応率、言い換えれば尤度は大体わかっているからだ。でも実は、われわれとして一番興味があるのは、どんなクラスターにすると、尤度を最大にできるか?なのだ。その意味で、クラスター定義とは、購買確率に基づいてきめたい。その意味で、クラスター定義は、どっちかといえば、従属変数とか、最適化する相手になる。

だけど、ベイズを使うと、クラスター定義と尤度は所与になる(とおもう)。つまり、とあるお客さんがなにかアクションをしたとき、どのクラスターに属するか?を計算する。だけど、こちらとしては、今のクラスター定義がベターなのかを知りたいのであり、それを置いておいて、どのクラスターに入りそうだといわれても、なんとなくピントがずれている気がしなくもない、と感じるわけです

といったことを、つれずれ考えて読み終わりました。