「遺伝学のベイズ的進化」の編集履歴(バックアップ)一覧はこちら
「遺伝学のベイズ的進化」(2007/07/24 (火) 19:17:19) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
=確率モデルを使用する意味=
*個体、集団、種の遺伝的属性(個体のジェノタイプ、集団の遺伝子頻度、DNA配列多型)は確率的に遺伝することにより生じるものだから、これらは確率モデルなしで研究することはできない。
*たとえば遺伝子発現のパスウェイの研究などでは、現状では確率的解析は必要がない場合もある。しかしであっても他の観察的科学の領域と同様、確率的解析が必要となってきている。
=ちょっとベイズの勉強・・・byベイズ統計学入門=
*統計学の分類
**データ解析
***記述統計学(ゴールトン、ピアソン)
***テューキーの探索的データ解析
**推測統計学
***区間推定
***ベイズ推測
**統計的決定理論
***フィッシャーの最尤法
***ネイマン・ピアソンの統計的仮説検定
***サベジによるベイズ的意思決定理論
=ベイズ推測の原理=
*観察データとモデルのパラメータがともに確率変数である
{|
|-
| 自分的解釈:確率変数とは、「さいころの目」。つまり、いかさまができないさいころでは、さいころをふるまではさいころの目がどうなるかわからない。これまでの統計理論では、母集団のパラメータとは真実の値があるものだが有限のデータからはわからないとしていた。ベイズでは、母集団のパラメータは、観察データをみるまではわからない。観察データを見てみると、このあたりだろうとなり、さらなる観察データが出るといやこのあたり、と修正できる。最初の観察データを見る前には、事前確率を主観的に与えることができる。
|}
**「データ」は観察できる確率変数、「パラメータ」は観察できない確率変数
**結合確率分布とは、尤度とpriorの積
**priorは、データを得る前に手にしている情報を元にした確率分布
**尤度は、パラメータがある特定の値をとったときに観察データが得られる条件付き確率
*ベイズ推定の主な目的はパラメータの事後分布を計算すること:それはデータが与えられたときのパラメータの条件付分布
**点推定は、事後分布のmodeやmeanから得られる。
**区間推定は値のcredible(信用?)setを得ればよい(真のパラメータを1-αの確率で含むセットまたは区間)
**未知の集団からの個人を、遺伝子型にしたがって出生集団にアサインする方法->Box1
*非ベイズ的アプローチでは、frequentistの方法である[[確率統計#モーメント|モーメント]]を用いた方法がある。
*最尤法は尤度関数による推定法で、事前情報を考慮しない。古くからあるベイジアンへの批判は、priorの選択が客観的ではないというものである。
**しかし原理的には、これは最尤法における尤度関数の選択と違いはない。
*ベイズ推定を行う現実的な理由はたくさんある
**確率モデルにたくさんの相互依存的な変数が含まれていて、それらが特定の範囲の値しか取れないならば(遺伝学においてよく見られるように)、最尤法においては尤度関数を最大化するパラメータのセットを探し出すため多次元の最大化を行う必要がある。
**さらに、最尤法においては、信頼区間や統計学的検定においては巨大なサンプルサイズにおいて正確となるような近似が行われている・・・たとえば最尤推定量の確率分布は正規分布に従う、というように。
*ベイズ推定においては、最大化ではなく積分を行ってパラメータを求めるが、その際さらなる近似は必要ない。
*1950年代に[[確率統計#マルコフ連鎖モンテカルロ法|マルコフ連鎖モンテカルロ法]]を用いて開発された数値計算法と、新しい強力なコンピューターによりベイズ事後確率の評価は非常に容易になり、最尤法などの古典的方法が適用しにくい複雑な遺伝的モデルにおいても計算がやりやすくなっている。
**→これが近年科学のほとんどの分野でベイズ推定の人気が極端に上昇した最も重要なファクターである。
=集団遺伝学=
*集団遺伝学は、フィッシャー、ホールデン、ライトにより構築された。
*初期の統計学的方法においては、method of momentsの方法を用いて遺伝的モデルのパラメータの関数として多様な推定量の期待値を計算していた。
*尤度によるアプローチは後年まで用いられなかった。
*Coalescent theoryは集団遺伝学に強い影響を与えた。
**初期の方法と同様に期待値を与えるが、パラメトリックブートストラッピングが可能となり、frequentistの伝統にのっとりより洗練された信頼区間と仮説検定を行うことができた。
**coalescent theoryは系統樹モデルの尤度計算を提供するので、ベイズアプローチによる地政学的歴史の推定も可能である。
*また、個体の起源となる集団にアサインし、遺伝子の選択を検出することもできる。
==demographic modelsのパラメータの推定==
*集団遺伝学的推測の特徴は、尤度関数のパラメータ、たとえば突然変異率μや有効集団サイズNeは積としてのみ得られる、つまりnon-identifiableであるということ。
中略
=ゲノミクス=
==配列解析==
*系統進化的でない側面での配列解析では、豊富で多様なモデルベースの方法の歴史があり、早い段階でMCMCの応用もされていた。
*マルコフ連鎖または隠れマルコフモデル(HMM)は配列解析のほとんどの最尤法の心臓部にあたる。いくつかの尤度ベースの解析ではベイジアンな計算をしている。たとえばGeneMarkソフトウェアは原核生物のゲノムのアノテーションに用いられるが、さまざまな異なったシチュエーション(コーディングであるか、ノンコーディングであるか・・・など)での尤度を計算し経験的ベイズ計算をする。
*ベイズ解析では、あるnucleotide positionの塩基やアミノ酸残基が、確率分布からランダムにサンプリングされたものだと仮定する。
*用途
**model protein alignment
**local alignment
**identify transcription-factor binding sites
*最尤法によるアプローチだとパラメータ数を多くは取れず、有意検定ではhigh-dimensional optimizationsが必要となってしまうのに対してベイズであればより多くのパラメータを考慮でき(本質的には、最尤法では可能なパラメータ数が固定されるが、ベイズでは可変である)、検定は有意検定よりも厳格である。
*HMMモデルをMCMCフレームワークにいれたやり方が、今後は最尤法ベースよりも普及するだろう。
==SNPの認識==
*通常SNPは、少数の集団を強力にシークエンスすることで見つける。→ジェノタイピングエラーなどによる偽陽性が多くなる。
*PolyBayesというソフトウェアが広く使われている。
**SNP発見における二つの問題:(1) 相同なシークエンスが存在すること (2) シークエンスエラーがありうること。
***(1)に対して:サンプルシークエンスとリファレンスシークエンスとのミスマッチの数を数える。事前情報は相同配列同士のペアワイズの配列の違いで、どれくらいのミスマッチを得るかを二つの仮説について計算し、相同な領域からのミスマッチであるかどうかの事後確率を得る。
***(2)に対して:二つの仮説、「観察されたvariantは単なるエラーである」と「観察されたvariantは真のpolymorphismである」を比較する。Indelは無視。
==ベイズ的ハプロタイプ推定==
*EMアルゴリズムよりもコンピュータへの負荷が少なく正確な推定を返す。
*観察データGから、集団ハプロタイプ頻度Fと/または個人ディプロタイプHを推定する。
*事前分布が問題・・・
**Niuらは任意の分布を用いた
**Stephensらはcoalescent modelを使用した。
*最近の研究では、推定されたハプロタイプ頻度を、個人のハプロタイプがはっきりしないことの説明抜きで直接ケースコントロール研究に用いている。
==遺伝子の発現と調節レベルの推定==
*DNA-RNAハイブリダイゼーション技術をもとにした遺伝子発現レベルの測定法においては統計学的問題が発生する。ベイジアンたちもこの問題に興味を持っている。
*問題点は次の二つ
**どちらの遺伝子が、treatmentに影響されたのか
**発現パターンをもっともうまく特徴付けるモデルはなにか?
*再現実験におけるモデル多様性の情報を最大化する
**同じ遺伝子で繰り返すことはできず、別の遺伝子の情報を用いることになる: 階層化ベイズモデルで可能である
*偽陽性、儀陰性を最小化する
**sequential p-value methodにて行う
*fully Bayesian methodを使用することもできる→affected genesを柔軟な方法で取り出すことができる
*マイクロアレイ→古典的にはノンパラメトリックな序列化またはクラスタリングを行う
**ベイジアンモデリングを適用すると、古典的方法では困難である検定や、特定のグルーピングの信用区間を得られる。
=人類遺伝学=
==関連マッピング==
関連解析→検出力は高いが偽陽性が多い。偽陽性のひとつの理由:集団の構造化
*疾患の突然変異も、特定のマーカーアレルも、特定の集団において偶然の理由(遺伝的浮動や環境要因)で増減することがあり、それらは関連しているように見える
1990年代に、その問題の解決のためTDTなどのFBATが導入された。FBATでは、患者に伝達されなかったアレルをコントロールとし、伝達されたアレルをケースとする。
**欠点1: 連鎖なしまたは関連なしの複合帰無仮説を検定する。しかし知りたいのはどっちであるのかだ。
**欠点2: 過去の連鎖解析や関連解析の情報を活かせない。
*ベイジアンFBATが開発されている。組換え割合などのモデルパラメータに対し柔軟な事前確率密度を適用し、ベイズ因子を用いる。
集団の構造化を補正するもうひとつの方法は、連鎖していない遺伝的マーカー(genomic controls)を利用することである。
=確率モデルを使用する意味=
*個体、集団、種の遺伝的属性(個体のジェノタイプ、集団の遺伝子頻度、DNA配列多型)は確率的に遺伝することにより生じるものだから、これらは確率モデルなしで研究することはできない。
*たとえば遺伝子発現のパスウェイの研究などでは、現状では確率的解析は必要がない場合もある。しかしであっても他の観察的科学の領域と同様、確率的解析が必要となってきている。
=ちょっとベイズの勉強・・・byベイズ統計学入門=
*統計学の分類
**データ解析
***記述統計学(ゴールトン、ピアソン)
***テューキーの探索的データ解析
**推測統計学
***区間推定
***ベイズ推測
**統計的決定理論
***フィッシャーの最尤法
***ネイマン・ピアソンの統計的仮説検定
***サベジによるベイズ的意思決定理論
=ベイズ推測の原理=
*観察データとモデルのパラメータがともに確率変数である
{|
|-
| 自分的解釈:確率変数とは、「さいころの目」。つまり、いかさまができないさいころでは、さいころをふるまではさいころの目がどうなるかわからない。これまでの統計理論では、母集団のパラメータとは真実の値があるものだが有限のデータからはわからないとしていた。ベイズでは、母集団のパラメータは、観察データをみるまではわからない。観察データを見てみると、このあたりだろうとなり、さらなる観察データが出るといやこのあたり、と修正できる。最初の観察データを見る前には、事前確率を主観的に与えることができる。
|}
**「データ」は観察できる確率変数、「パラメータ」は観察できない確率変数
**結合確率分布とは、尤度とpriorの積
**priorは、データを得る前に手にしている情報を元にした確率分布
**尤度は、パラメータがある特定の値をとったときに観察データが得られる条件付き確率
*ベイズ推定の主な目的はパラメータの事後分布を計算すること:それはデータが与えられたときのパラメータの条件付分布
**点推定は、事後分布のmodeやmeanから得られる。
**区間推定は値のcredible(信用?)setを得ればよい(真のパラメータを1-αの確率で含むセットまたは区間)
**未知の集団からの個人を、遺伝子型にしたがって出生集団にアサインする方法->Box1
*非ベイズ的アプローチでは、frequentistの方法である[[確率統計#モーメント|モーメント]]を用いた方法がある。
*最尤法は尤度関数による推定法で、事前情報を考慮しない。古くからあるベイジアンへの批判は、priorの選択が客観的ではないというものである。
**しかし原理的には、これは最尤法における尤度関数の選択と違いはない。
*ベイズ推定を行う現実的な理由はたくさんある
**確率モデルにたくさんの相互依存的な変数が含まれていて、それらが特定の範囲の値しか取れないならば(遺伝学においてよく見られるように)、最尤法においては尤度関数を最大化するパラメータのセットを探し出すため多次元の最大化を行う必要がある。
**さらに、最尤法においては、信頼区間や統計学的検定においては巨大なサンプルサイズにおいて正確となるような近似が行われている・・・たとえば最尤推定量の確率分布は正規分布に従う、というように。
*ベイズ推定においては、最大化ではなく積分を行ってパラメータを求めるが、その際さらなる近似は必要ない。
*1950年代に[[確率統計#マルコフ連鎖モンテカルロ法|マルコフ連鎖モンテカルロ法]]を用いて開発された数値計算法と、新しい強力なコンピューターによりベイズ事後確率の評価は非常に容易になり、最尤法などの古典的方法が適用しにくい複雑な遺伝的モデルにおいても計算がやりやすくなっている。
**→これが近年科学のほとんどの分野でベイズ推定の人気が極端に上昇した最も重要なファクターである。
=集団遺伝学=
*集団遺伝学は、フィッシャー、ホールデン、ライトにより構築された。
*初期の統計学的方法においては、method of momentsの方法を用いて遺伝的モデルのパラメータの関数として多様な推定量の期待値を計算していた。
*尤度によるアプローチは後年まで用いられなかった。
*Coalescent theoryは集団遺伝学に強い影響を与えた。
**初期の方法と同様に期待値を与えるが、パラメトリックブートストラッピングが可能となり、frequentistの伝統にのっとりより洗練された信頼区間と仮説検定を行うことができた。
**coalescent theoryは系統樹モデルの尤度計算を提供するので、ベイズアプローチによる地政学的歴史の推定も可能である。
*また、個体の起源となる集団にアサインし、遺伝子の選択を検出することもできる。
==demographic modelsのパラメータの推定==
*集団遺伝学的推測の特徴は、尤度関数のパラメータ、たとえば突然変異率μや有効集団サイズNeは積としてのみ得られる、つまりnon-identifiableであるということ。
中略
=ゲノミクス=
==配列解析==
*系統進化的でない側面での配列解析では、豊富で多様なモデルベースの方法の歴史があり、早い段階でMCMCの応用もされていた。
*マルコフ連鎖または隠れマルコフモデル(HMM)は配列解析のほとんどの最尤法の心臓部にあたる。いくつかの尤度ベースの解析ではベイジアンな計算をしている。たとえばGeneMarkソフトウェアは原核生物のゲノムのアノテーションに用いられるが、さまざまな異なったシチュエーション(コーディングであるか、ノンコーディングであるか・・・など)での尤度を計算し経験的ベイズ計算をする。
*ベイズ解析では、あるnucleotide positionの塩基やアミノ酸残基が、確率分布からランダムにサンプリングされたものだと仮定する。
*用途
**model protein alignment
**local alignment
**identify transcription-factor binding sites
*最尤法によるアプローチだとパラメータ数を多くは取れず、有意検定ではhigh-dimensional optimizationsが必要となってしまうのに対してベイズであればより多くのパラメータを考慮でき(本質的には、最尤法では可能なパラメータ数が固定されるが、ベイズでは可変である)、検定は有意検定よりも厳格である。
*HMMモデルをMCMCフレームワークにいれたやり方が、今後は最尤法ベースよりも普及するだろう。
==SNPの認識==
*通常SNPは、少数の集団を強力にシークエンスすることで見つける。→ジェノタイピングエラーなどによる偽陽性が多くなる。
*PolyBayesというソフトウェアが広く使われている。
**SNP発見における二つの問題:(1) 相同なシークエンスが存在すること (2) シークエンスエラーがありうること。
***(1)に対して:サンプルシークエンスとリファレンスシークエンスとのミスマッチの数を数える。事前情報は相同配列同士のペアワイズの配列の違いで、どれくらいのミスマッチを得るかを二つの仮説について計算し、相同な領域からのミスマッチであるかどうかの事後確率を得る。
***(2)に対して:二つの仮説、「観察されたvariantは単なるエラーである」と「観察されたvariantは真のpolymorphismである」を比較する。Indelは無視。
==ベイズ的ハプロタイプ推定==
*EMアルゴリズムよりもコンピュータへの負荷が少なく正確な推定を返す。
*観察データGから、集団ハプロタイプ頻度Fと/または個人ディプロタイプHを推定する。
*事前分布が問題・・・
**Niuらは任意の分布を用いた
**Stephensらはcoalescent modelを使用した。
*最近の研究では、推定されたハプロタイプ頻度を、個人のハプロタイプがはっきりしないことの説明抜きで直接ケースコントロール研究に用いている。
==遺伝子の発現と調節レベルの推定==
*DNA-RNAハイブリダイゼーション技術をもとにした遺伝子発現レベルの測定法においては統計学的問題が発生する。ベイジアンたちもこの問題に興味を持っている。
*問題点は次の二つ
**どちらの遺伝子が、treatmentに影響されたのか
**発現パターンをもっともうまく特徴付けるモデルはなにか?
*再現実験におけるモデル多様性の情報を最大化する
**同じ遺伝子で繰り返すことはできず、別の遺伝子の情報を用いることになる: 階層化ベイズモデルで可能である
*偽陽性、儀陰性を最小化する
**sequential p-value methodにて行う
*fully Bayesian methodを使用することもできる→affected genesを柔軟な方法で取り出すことができる
*マイクロアレイ→古典的にはノンパラメトリックな序列化またはクラスタリングを行う
**ベイジアンモデリングを適用すると、古典的方法では困難である検定や、特定のグルーピングの信用区間を得られる。
=人類遺伝学=
==関連マッピング==
関連解析→検出力は高いが偽陽性が多い。偽陽性のひとつの理由:集団の構造化
*疾患の突然変異も、特定のマーカーアレルも、特定の集団において偶然の理由(遺伝的浮動や環境要因)で増減することがあり、それらは関連しているように見える
1990年代に、その問題の解決のためTDTなどのFBATが導入された。FBATでは、患者に伝達されなかったアレルをコントロールとし、伝達されたアレルをケースとする。
**欠点1: 連鎖なしまたは関連なしの複合帰無仮説を検定する。しかし知りたいのはどっちであるのかだ。
**欠点2: 過去の連鎖解析や関連解析の情報を活かせない。
*ベイジアンFBATが開発されている。組換え割合などのモデルパラメータに対し柔軟な事前確率密度を適用し、ベイズ因子を用いる。
集団の構造化を補正するもうひとつの方法は、連鎖していない遺伝的マーカー(genomic controls)を利用することである。二つの欠点がある
*これらは疾患感受性アレルのマッピングをするために特異的に開発されたものではない
*genomic ancestriesやadmixture proportionsの統計的な不確実性を充分説明していない
これらに対応するため、ベイジアンな取り組みが行われている
=疾患感受性遺伝子のファインマッピング=
*1980年代に、最初のゲノムワイドマーカーであるRFLPが開発された。→disease geneが特定の染色体領域にあることを明らかにし、ポジショナルクローニングの成功率を高めた。
**連鎖解析により明らかになる候補領域はたいてい1Mb以上であり、1980年代の技術ではシークエンスは不可能だった。
**そこで、候補領域内の遺伝子多型マーカーをタイピングすることになった。この方法で、疾患染色体の共有する'ancestral' haplotypesをさがす。
**基本的なアイデアはこうである。disease mutationが特定の染色体上の特定のハプロタイプ上に現れると、ancestral recombinationにより、disease-mutation locationから遠いところからハプロタイプのdecayがおきてゆく。このようなやり方はLD mappingとも呼ばれる。
*初期の方法では、single-linked genetic marker間のペアワイズ解析を行うだけだった。基本的には、非組換えハプロタイプの予想割合を解き、それからポワソン分布を仮定するようになった。さらに、coalescent theoryにもとづくパラメトリックモデルを用いて、disease-mutation positionを最尤推定するものもある。
*しかしmultiple linked markersやgenetic heterogeneity(multiple disease allelesなど)があることから、最尤推定を行うことが難しくなってきた。
*MCMCを用いたベイズ的な方法はこの方法のalternativeである。
**unknown genealogy (coalescent tree)やancestral haplotypes that underlie a sample of seiase chromosomes、そしてage of disease mutationsなどのnuisance parametersを積分できる。
**また、multilocus haplotypesやgenotypesを直接使用し、またその他の追加情報をpriorとして組み込むこともできる。
**RannalaとReeveはNCBIのヒトゲノム配列とHGMDをpriorとして利用した。
**また、ベイジアンな方法だと、ハプロタイプではなく観察ジェノタイプデータを直接利用し、MCMC法でハプロタイプを組み立てることができる。allelic heterogeneityはさらにshattered coalescent methodsでモデル化できる。