2011-02-27

データアナリストの求人2

サイバーエージェントがコンピューターサイエンスとか統計学系のポスドクをマーケティング系データアナリストとして採用したいという話があるけど、それってどうなのよ、と言うことを前回書きました。

で、その理由を今回書きます。
ま、だれも別に興味ないと思うけど。

実は、僕自身、ハードスキル(⇒(数理)統計を知っている、色んな多変量解析を行列レベルで理解できる、複数言語のプログラミングができる、データベース(RDB)の設計やデータベースプログラミング、つまりSQLが自在に書ける、数値シュミレーションがわかる、線型代数やベクトル解析といった理工系や経済学で普通に使う数学を理解できる)と言った事をわりと重視していました。(個人的にも、この程度のレベルのスキルはカバーしているつもり)

さらに、いまでも重視している事には変わりありません。
できないより、出来たほうがよいに決まってるからね。

が、しかし、最近はかなり優先度が下がりました
むしろ、マーケティング自体をすごく重視しています。

実は、現在、ハードスキルを使うような仕事をしてません。今勤めてる会社には、学校歴が立派で、さらに、かしこくて、素直で、人当たりが良いプロパーの子が多いので、中途採用の僕ごときが高級なことをする必要がないのですよ。

で、彼らは多変量解析などを使い、新分析の開発を行うのですが(マーケティングモデルと言ったりする)、これが、、、、正直な話、使えない。到底、使い物にならない。

なぜ使い物にならないかと言えば、分かりきった結果が出るような内容を、わざわざ多変量解析を使って分析するんですよね(下手すると、意味不明の結果を出すけど)。決定木をつかいました、ロジスティック回帰を使いました、SEMをつかいました、、、で、この結果がでました、、、と。

ああ、そうですか。それはご立派ですね
でもね。

まあ、分かりきった結果が出るのは、べつに悪い事ではないです。しかし、分かりきった結論「しか」でないことが大問題ですよ。それなら、べつに多変量解析を使う必要ないよね、折れ線グラフとか構成比とかで、十分でしょうよ、ということです。そもそも、モデルを使った分析をすると、見積もりが高くなるんですよ、だから、プラスアルファの結論が出ないと割に合わないの!

かれらは多変量解析は使えるけど、マーケティングを知らないんですよね。

言い換えると、マーケティングにもとづく、分析対象への洞察力がないから、問題設定がPoorになる。その結果、多変量解析を使っても、構成比を注意深く見れば理解できる程度の結論しか出ない、ということになっていると思われるのです。

なによりもまず、どんな問題設定を行うか?を考えるのが重要。
で、設定された問題を解くためには、どんな手法を使うべきか?を考えるべき。
手法に貴賎はない、とおもう。構成比で結論を出せれば、それで十分だと思う。

思うに、マーケティング業界では、データアナリストという職種は成り立たないと思いますね。
というもの、マーケティングとデータアナリストをつなぐ人がいないから。
だから、マーケターやリサーチャーがデータアナリストになるか、あるいは、データアナリストが、リサーチャーやマーケターになるしかないんですよね。

まあ、データアナリストは、マーケティング業界以外では成り立つかもしれないけど。
その意味では、マーケティング業界は、未だ職種が未分化なんだろうなあ、と言う気がしますね。

---------------

2014年10月28日追記

なんだか、勢い余って数学得意ですが何か?的な感じになってしまったが、決してそんなことはありません。やっぱり数学、難しいですよね、ははは。まあ、ご愛嬌ってことで。
しかし、考えてることは変わらないけど、まったくあられもないこと書いてますね。きっと、このころは、とても疲れていたのであろう。

以上

2011-02-17

データマイニングエンジニアの求人

サイバーエージェントが、データマイニングエンジニアを募集してるようです。
求人内容は、これ。

【データマイニングエンジニア(正社員)】アメーバ事業本部
■業務内容
・分散処理システム(Hadoop/Hive)を用いた【Ameba】サービスのログ解析および分析
・統計手法を用いたデータ分析、サービス指標の策定
・ユーザトラッキング、ユーザクラスタリングシステムの開発、運用
・ユーザ特性に合わせた広告配信、レコメンデーションシステムの考案・開発・運用
・最新技術の研究・開発

【現在の課題】
ログ解析基盤の統合、数値指標の明確化、解析・分析結果提供のスピードアップ

■対象者
統計学やデータ・テキストマイニングを専門分野とする博士課程修了者・非常勤講師

■求めるスキル
・統計学に関する基礎知識
・データベース(もしくはBI/DWH)に関する知識
・Web系プログラム(特にJava)実装経験があればなお良し
・Hadoopの使用経験があればなお良し
・大規模データ処理の経験があればなお良し

サイバーエージェントの事情は良く分かりませんが、

・クラスタ別にトラッキングしたり、新指標開発を行いたい
あるいは、
・ユーザ特性に合わせて広告配信、レコメンデーションシステムを開発したい


という2つの業務をやらせたいというのが本音という気がします。
で、社内で使っているDBが

・Hadroop

ですということでしょうかね。
で、コンピューターサイエンス系のポスドクを採用したいと。

まず、この手の仕事をコンピューターサイエンス系ポスドクにやらせても、アクセスログ解析そのものを研究している人でない限り、上手くいかない気がする。というのも、この求人には、少なくとも2つのスキルを求めていると思われるから。で、それがこれら。

(1)大規模データを自由自在に処理して分析できるスキル
(DBプログラミング+統計解析)

(2)ユーザーがブログをどんな風に使うかを分析できるスキル
(マーケティング)

アクセスログ解析を研究していれば、おそらく、(1)と(2)の両方を知っているはず。というか、そうじゃないと仕事にならない。

がしかし、コンピューターサイエンスを研究する人となると、(1)を何とかできるけど、(2)が皆目検討つかない気がする。とくに、(2)は文系的(文学的)だから、理系的な人ならば相当戸惑うのではないか。

それでも、マーケティング側の人が、マーケティング課題を、コンピューターサイエンス側のテクノロジーの言葉につなぐことが出来ればげれば、まともなシステムは組みあがらると思われる。だけど、マーケティング側の人々もテクノロジーにはこの上なく鈍いのが現状。

ということで、思いのほか、この2つのギャップは広いと思うのですよ。

データマイニングが話題になる割に一向に活用が進まないのは、この辺に理由があるのではないか、、、といつも思います。まあ、最大の問題は、一般的なマーケティングレベルがヒジョーに低いため、データマイニングが役立つ所まで、問題を昇華できないところなんですよね、きっと。

サイバーエージェントがんばりやー

2011-02-06

いや、それ、母集団ですから!残念

大分前ですが、「リサーチャーがサンプルサイズをサンプル数と言っていてけしからん」という話、というか、その手の批判をしていたブログがありました。

で、個人的には、どーーでもいいじゃん、というか、つまらんこと気にするなーと思うのですが、そのブログで、さらにさらに、「標本のサンプルを小文字のnと書かないのは、リサーチャーとしてけしからん!」という話を、最近、展開しておりました。

いまんとこの最適解  サンプルサイズの表記  2011-02-04

ライオンさんのプレスリリースがtwitter上で流れていました。

〇徹底検証!トイレをキレイにすると本当に ”いいこと”がある!?”トイレをキレイにしている人”は「モテ度」や「年収」が高い!

内容もキャッチーで、因果関係の解釈とか話題の広がりも豊富になりそうな内容です。

…で、僕が気になったのはグラフに表記されている「N」。
これはサンプルサイズ(標本の大きさ)*1を意味する表記のようです。

この表記はよく見かけるのですが、あまりよろしくありません
「N」(ラージN)は母集団の大きさを表す表現です。
標本の大きさを表すには「n」(スモールn)を用いるのが数学、統計学の常套です

あのさー、というかさー、空気よもーよー

サンプルサイズの表記がnだったとしても、ライオンが発表した資料の解釈なんて変わらないし、もっと言えば、解釈に深みもでないじゃん。

この批判、マーケティング的に意味あんのかなー?
マーケティングリサーチャーなら、マーケティング的に意味がある指摘をしてほしいところだなー

もちろん、統計学的には、標本と母集団の違いは重要
が、リサーチャーは、統計学のマーケティングでの応用が重要なのです
だから、マーケティング的解釈に影響しない誤用に対して、とやかく言うことにメリットを感じません。

そうそう、よく数学者が教える数学に対して、(数理?)物理学者が、こんな文句を書いていたことを思い出ししました。

・数学者は、連続関数は微分できる、といっておきながら、一方で、いたるところで微分できない連続関数があるといって、数学ユーザーをびっくりさせる

・数学者は、定義と定理と証明で数学を教えたがるけど、数学ユーザーにとって、証明を学ぶことは、車検に出した車を自分で点検するようなものだ

つまり、物理学者は、べつに数学の理論体系そのものには興味なくて、数学の物理での応用だけに興味がありますが、数学者は物理学者が置かれている状況似たいする理解が足らなくて、つまらない批判とか、教育方法をとりがちです、、、、というようなお話です。
ま、リサーチャーは数学ユーザーの中でも、かなりレベルも地位も低いと思われ、物理学者と比べること自体、すごく間違っていると思うのですが、なんだか、これらの話は似ている気もしなくもないです。

(今日の格言)
「マーケティング・リサーチ」の結果は、現実的には標本調査をしていてても、調査結果は母集団を調べた時と寸分たがいませんから!

いじょう