2008年10月22日水曜日

Chapter4 Multiparameter Model

長らくブログも休んでいまして申し訳ありません。
今日から再開します。

第4章はモデルのパラメータが複数の場合についてのベイズ統計の話でした。
中身としては、第3章のときとさほど変わりません。
パラメータの事前分布を設定し、尤度から事後分布を計算する流れは前の章でやってきた方法と同じです。

第4章で出てきた新しい知識をまとめておきます。

  1. 多項分布の共役分布としてのディリクレ分布
  2. ディリクレ分布がガンマ分布を用いて表現できる(つまり、ガンマ分布乱数生成関数rgammaを用いれば、ディリクレ分布乱数生成関数を定義可能)
  3. ロジスティックモデルのパラメータ推定
  4. 対数事後分布(一般的な呼び名ではない?)の計算とシミュレーション方法

4章で出てきた例では、事後分布の計算方法として次の2通りがありました。
  1. 自然共役分布を用いた事前分布と同形の事後分布の計算
  2. パラメータをグリッド上の点で分割し、数値計算により事後分布を計算

また、4章ではmycontourとsimcontourという関数が登場しますが、この関数についての詳しい説明は5章で登場しますので、理解に苦しんだ場合は5章を見てみると良いでしょう。

2008年7月25日金曜日

核(kernel)について

Chapter2 の中で「核(カーネル)」とは何なのかという議論がありましたが、先ほど村山さんから明快な説明があったのでのせておきます。



前川研の村山航です。前回に「核 (kernel)とは何か」という議論がありました
が,繁枡先生のベイズ本に書いてありました。

「尤度や確率密度関数において,θ(パラメタ)の関数の部分のみを取り出したものを,尤度や確率密度関数の核 (kernel) と呼ぶ」

とのことです。ベイズでは,定数項はとりあえず無視して,事後分布が何に「比例しているか」を考えるのが通常ですが,この定数項を無視した部分を,ベイズ統計の文脈では「核」と呼ぶようです。なので,名前はいかめしいですが,そんなに難しく考える必要はなさそうです。



平均θ(パラメタ)、分散c(定数)の正規分布:p(y|θ)例に核を示します。



l(θ|y)はθについての尤度です。
この尤度(θについての関数)から定数項、比例定数を除いたものがこの尤度の核です。
上記の式では最後の行の式が尤度の核です。

これからわかるように、ベイズ統計の計算で僕たちが中心に扱っているものは核です。

2008年7月18日金曜日

第三回ゼミを終えて(08/7/14)

岡田です。

第三回のゼミはChapter2をすべてやりました。
Chapter2の内容は、大まかにいうと「未知母数pの事前分布の設定と事後分布の計算」でした。
より細かいことを言うと↓のような感じでした。

  • 未知母数pの事前分布が離散分布の場合、連続分布(ベータ分布)の場合についてそれぞれ計算方法。
  • 事前分布に自然共役分布(例:ベータ分布)を設定すると、事後分布も同じ確率分布の形式で表現できる。(これ自身が自然共役分布の定義)
  • 未知母数pの事前分布にベータ分布などを仮定すると、この事前分布自体が母数θを持つことになる。このような事前分布の母数θを、未知母数pに対する超母数(ハイパーパラメータ)という。
  • pの事後分布のシミュレーションによる要約、離散分布への近似。
  • 予測分布の計算。

本の中ではLearnBayesパッケージで用意されている関数が多用されてます。
しかし、このような関数概要以外は示されていません。
Rでベイズ統計をコンピューティングする上で、ブラックボックス的な関数を平気で使い続ける訳にはいきません。

なので、本の中で出てくる関数について中身を解析していこうと思います。
とりあえず、2章で出てきた関数の解析を個人的に進めたいと思います。
解析してコメントをつけた関数のソースコードを公開して行きたいと思います。



次回は再来週の月曜日(7/28)です。
時間はいつも通りの予定ですが、もしかしたら変更があるかもしれません。
変更があったときはすぐ連絡します。

次回の内容は、1章と2章のExercisesです。
各問題の担当者は↓です。

(手元にメモがなかったので、また後で更新します)

担当者は、和訳した問題文とプログラムのソースコードを用意してください。

2008年7月7日月曜日

ベイズ統計入門

岡田です。

今日のゼミでは「ベイズ統計入門 /渡部洋」の0章から3章にかけて大まかに勉強しました。
ゼミを通してわかってきた、ベイズ統計をやるうえで重要な概念をまとめてみます。




主観確率
ベイズ統計で扱われる確率は主観確率です。
それに対して、標本理論で扱われる確率は頻度論的確率です。
頻度論的確率は客観確率とも呼ばれます。

主観確率と客観確率の違いはいろいろと議論されているようです。
両者の大きな違いは、主観確率ではベイズの定理を全面的に認めるところであると言えると思います。

ベイズの定理は、事前確率と尤度から事後確率を導けることを示しています。
ここでの確率は主観確率であり、客観確率ではありません。
主観確率は不確実性を含む尤度や事後確率という概念を認めますが、客観確率ではそのような不確実性を含む概念を認めません。

この主観確率と客観確率の違いを認識することは、統計学としてのベイズ統計の理解するために非常に重要だと思われます。


すべての判断は確率を通じて行われる
標本理論では”90%信頼区間”という概念が出てきますが、ここで語られている90%は確率ではありません。
つまり、標本理論では確率とは別の概念を導入して分析や判断を行います。

それに対してベイズ統計では、すべての判断が確率を通して行われます。
ベイズ統計では、基本的に事後確率を分析・判断の道具として使います。


確率の公理(コルモゴロフの公理、レンニの公理)
上で述べているように、ベイズ統計において確率の概念はとても重要です。
レンニの確率の公理からベイズの定理が導出する過程を理解することは、確率とベイズの定理を深く理解する上で非常に重要だと思われます。


周辺化
同時確率分布から不要な確率変数について総和をとり、変数を取り除く計算を周辺化と呼びます。
周辺化はされてえられた1つの確率変数に関する確率は周辺確率と呼ばれます。
ベイズ統計において周辺化計算は切っても切れないものなので、必ずおさえておきましょう。


二項分布
二項分布は様々な確率分布の出発点となっている分布です。
つまり、二項分布を理解することは他の確率分布の理解の土台ともいえます。

"Bayesian Computing with R"ではベータ分布がよく登場します。
ベータ分布を事前分布とすると事後分布もベータ分布として表現できる(このような分布を自然共役分布という)ため、ベイズ推定において扱いやすいというのが理由です。

ベータ分布は二項分布によく似た分布です。
二項分布を理解することはベータ分布を理解することにつながります。
つまり、ベイズ推定をやりたいのであれば二項分布の理解は必須とも言えます。


事前分布、モデル分布、尤度関数、事後分布
この4つの概念はベイズ統計の大黒柱です。
曖昧なままでは先に進めないので、かならず理解しておきましょう。

表面上では同じ顔をしているモデル分布と尤度関数の違いをはっきり認識しておくのも重要です。


無情報事前分布
事前知識を事前分布として取り組める点がベイズ推定の利点でしたが、事前知識がない状況での推定も出来なければなりません。
この場合、事前知識のない事前分布 ”無情報な事前分布” として無情報事前分布を用いることで、この状況下での推定を行うことが出来ます。

無情報事前分布には一様分布が対応します。
一様分布が持つ意味 ”すべての値が同じ確からしさを持って生起する” ことを考えれば、一様分布が無情報事前分布として扱えることが理解できると思います。


最尤推定とMAP推定
最尤推定は尤度関数L(θ|D)を最大化するθを推定量とする推定法です。
MAP推定は事後分布P(θ|D)を最大化するθを推定量とする推定法です。

両者の違いは、最大化する対象が尤度であるか事後確率であるかの違いです。

ここで、ベイズの定理より、事後分布は尤度関数と事前分布の積に比例する関数

P(θ|D) ∝ P(D|θ)P(θ) = L(θ|D)P(θ)


であることを思い出しましょう。
θの事前分布が無情報事前分布のとき、P(θ) = 1 (0 < θ < 1)であるので、

P(θ|D) ∝ L(θ|D)P(θ) = L(θ|D)

となり、事後分布は尤度関数に比例したものになります。
つまり、事前分布が無情報分布の場合のMAP推定は最尤推定と等しくなります。


ベイズ推定
ベイズ推定は未知量θを分布と考える推定方法です。
MAP推定もθを分布と考えているので広義な意味でのベイズ推定と考えていいかもしれませんが、狭義な意味でのベイズ推定ではθを分布のまま扱っていきます。
(ここでいう広義の意味と狭義の意味は一般的に使われているものではありません)

最尤推定では尤度を最大化するθ、MAP推定では事後確率を最大化するθが推定対象でしたが、
ベイズ推定では予測分布が推定の対象となります。

Xの予測分布 P(X|D) = ∫P(X|θ)P(θ|D) dθ = ∫[Xのモデル分布][θの事後分布] dθ



以上が、今日のゼミの僕なりのまとめです。
何か不明な点、おかしな点があったら容赦せず突っ込んでください。

次回はJim Albertさんの本の2章をやります。
担当者は野上さんです。

P.S.
資料置き場の資料は適宜更新しておきます。
今日配布した資料には数式がプリントされてませんが、資料置き場にあるPDFはカラー版ですので印刷してもちゃんと数式が見えます。

2008年7月5日土曜日

ゼミ担当者について

岡田です。

第三章"Chapter 3 Single-Parameter Models "のゼミ担当者が村山さんに決まりました。
もし2章をやりたい方がいましたらコメントください。
いなければ第3回のゼミに僕が担当します。

ゼミの予定(08/7/7)

岡田です。

次回(7/7)のゼミはJim Albertさんの本の2章を考えていましたが、あまりにも唐突にベイズ統計での事後分布の計算などが出てくるので、別の本を用いてベイズ統計の基礎を学びたいと思います。この本には渡辺洋先生の「ベイズ統計入門」を使います。
前川研にコピーがありますので、いつでも取りにきてください。

Jim Albertさんの本ではありませんが、サンプルプログラムをRで書くかもしれませんのでパソコンはお持ちください。

2008年7月3日木曜日

LearnBayesパッケージのインストール

岡田です。

"Bayesian Computation with R"を進めてくにあたって、パッケージ[LearnBayes]のインストールが必須です。
東工大内のネットワークだと、プロキシサーバーのせい(おかげ)でRからパッケージの取得・インストールがうまくいかないことがあるようです。

何も問題なければ以下のコマンドだけでパッケージのインストールと読み込みが可能です。
install.package(LearnBayes)
library(LearnBayes)
data(LearnBayes)
僕のマシン(Mac OSX leopard)では問題はありませんでした。
問題がある環境での解決策を知っている方は、解決策を投稿してくださるとありがたいです。