ベイズ因子による検定


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。



ベイズ因子とは

  • 古典的な仮説検定の代わりとなるベイジアンな方法
  • データベクトルxのもとで、二つの仮説M1とM2のいずれかのモデルを選択する際のベイズ因子Kは、
K=\frac{p(x|M_1)}{p(x|M_2)}
である。ここでp(x|M_i)はモデルiの周辺尤度と呼ばれる。
  • 尤度比検定と似て(最尤法とは異なり)、ベイジアンではこれをパラメータで平均を取る。一般にモデルM1、M2はパラメータベクトル\theta_1,\theta_2でパラメータ化され、Kは
K=\frac{p(x|M_1)}{p(x|M_2)}=\frac{\int p(\theta_1|M_1)p(x|\theta_1,M_1)d\theta_1}{\int p(\theta_2|M_2)p(x|\theta_2,M_2)d\theta_2}
と変形される。
  • Kの対数は、xを与えたときのM1のM2に対するweight of evidenceと呼ばれることがある。

K > 1は、モデルM1がM2よりも強く支持されるということを示唆する。ハロルド・ジェフリーのKの解釈スケールはこうである

K dB Strength of evidence
< 1:1
< 0
Negative (supports M2)
1:1 to 3:1
0 to 5
Barely worth mentioning
3:1 to 10:1
5 to 10
Substantial
10:1 to 30:1
    10 to 15    
Strong
30:1 to 100:1 <center>15 to 20 Very strong
>100:1
>20
Decisive

具体例、WTCCC論文のメソッドより

  • N個体からなるセット(ケースN1、コントロールN2)のSNPタイピングを行った。
  • Yiは表現型で、個体iがケースのとき1、コントロールのとき2である。
  • Ziは個体iにおけるアレル1の個数である。
0 1 2
Case s0 s1 s2
Control r0 r1 r2
  • モデルは3通り
    • M0 関連なし
    • M1 additive effect on the log-odds scale
    • M2 general 3 parameter model of association
  • M1とM0の間のベイズ因子は次のように定義する。
BF_1=\frac{P(D|M_1)}{P(D|M_0)}=\frac{\int P(D|\theta_1,M_1)P(\theta_1|M_1) d\theta_1}{\int P(D|\theta_0,M_0)P(\theta_0|M_0)d\theta_0}
ここでDは観察データであり、\theta_1\theta_0はそれぞれモデルM1、M0のパラメータである。
  • 頻度論者のように尤度を最大化する代わりに、事前分布を与えてパラメータを重み付けし積分することができる。
  • いずれのモデルにおいても尤度のロジスティック回帰モデルを用いる。
P(D|\theta)=\prod_{i=1}^N p_i^{Y_i}(1-p_i)^{1-Y_i}
モデルM1においては
\theta_1=(\mu,\gamma) log \frac{p_i}{1-p_i}=\mu+\gamma Z_i
モデルM0では
\theta_0=(\mu) log\frac{p_i}{1-p_i}=\mu
  • 事前分布P(\theta_1|M_1)=P(\mu,\gamma|M_1)をはっきりさせる必要がある。
    • \muはベースラインのオッズである。ケースとコントロールの数に影響されるが、症例対照研究では人為的にケースの数が大きくなっている。そのため正規分布N(\alpha_1,\beta_1)\muの事前分布として使用する。実際には\mu \sim N(0,1)とした。
  • \gammaはリスクアレルの数に応じた対数オッズの増大を表しており、e^{\gamma}はオッズ比の加算効果を示す。よい事前情報がある。
    • common diseaseの原因となるgenetic variantsはリスクアレルのオッズ比が1-2であり、特に1-1.5であろうと信じられている。そんなわけで事前分布\gamma \sim N(\alpha_2,\beta_2)をとる。
  • まとめると、事前分布はこういう形になる。
P(\theta_1|M_1) \propt \frac{1}{\beta_1}e^{-\frac{(\mu-\alpha_1)^2}{2\beta^2_1}}\frac{1}{\beta_2}e^{-\frac{(\gamma-\alpha_2)^2}{2\beta_2^2}}
  • 事前分布はベイズ因子に大きな影響を与える。\muについては両モデルに共通のdiffuseな分布を用い、\gammaに焦点を当てた比較を行うこととした。
  • 周辺尤度を評価する。
P(D|M_1)=\int P(D|\theta_1,M_1)P(\theta_1|M_1) d\theta_1
に対してラプラス近似を行う。
\log P(D|M_1) \approx \log P(D|\hat{\theta}_1,M_1)+log P(\hat{\theta}_1|M_1)+\frac{d}{2} \log(2\pi)-\frac{1}{2}\log |A|
ここで\hat{\theta}_1P(D|\theta_1,M_1)P(\theta_1|M_1)を最大化するような\theta_1で、maximum a posteriori(MAP)推定量として知られる。
  • A\hat{\theta}_1P(D|\theta_1,M_1)P(\theta_1|M_1)のnegative Hessianで、dは\theta_1のdimensionである。
  • \hat{\theta}_1を求めるためNewton-Raphson法を用いたが、それで収束しないときにはline-search法を用いた。
ツールボックス

下から選んでください:

新しいページを作成する
ヘルプ / FAQ もご覧ください。