2011-11-13

カテゴリカルデータ解析入門

昨日、ふと、このブログの主旨は、読んだ本の記録をとることだと思い出しました。
ということで、読書メモの再開なのです。

カテゴリカルデータ解析入門(2002)
An Introduction to Categorical Data Analysis
サイエンティスト社



カテゴリカルデータの分析手法について解説した本。

大雑把に言うと、カテゴリカルデータとは、属性別のクロス集計データのことです。たとえば、男女別のコカコーラの購入者数とか、喫煙有無別のガン発症率とか調べれば、原因と考えた変数(性別・喫煙)が、結果(コカコーラ購入率・ガン発症率)に、どのくらい影響してそうか?を調べられる。

まあ、あげた例のレベルであれば、大学を出た社会人なら、リサーチャーであろうがなかろうが、何も考えず分析できるはず。が、カテゴリカルデータを、3元表の扱いや、モデリングまで視野に入れるなら、この手の本を読んだほうが良いと思う。

話は、サンプリングモデル(二項分布・ポアソン分布)から始まり、二元分割表における割合の推定から、相対リスク、オッズ比、さらに三元分割表でシンプソンのパラドックスなどを説明した後、一般線型モデルから、ロジスティック回帰・対数線型分析、変数連関図へと話が進みます。

この本のよいところは、統計モデルの説明に加えて、基本的な分割表の扱い方そのものを説明しているところだと思う。たとえば、シンプソンのパラドックスを知ることは、共変量の影響を除くことの重要性を知ることができる。シンプソンのパラドックスを、業務だけど気づくようになるには、下手すると10年程度かかるかもしれない。だけど、本を読めば一発なのです。

ただし、この本は、結構読みにくい。数学者が書いた本は、数学ユーザーにとって、かなり読みにくいものが多いと思う。この本も、Agrestiが数学者なので、そんなことになっているんだと思う。がしかし、カテゴリカルデータを、数式ナシで読める日本語の本は、この本以外には、太郎丸先生の「人文・社会科学のためのカテゴリカル・データ解析入門」しかないので、まあ、がんばって読むしかないんでしょうね、という感じなのです。

0 件のコメント:

コメントを投稿