新規作成
新規ページ作成
新規ページ作成(その他)
このページをコピーして新規ページ作成
このウィキ内の別ページをコピーして新規ページ作成
このページの子ページを作成
新規ウィキ作成
編集
ページ編集
ページ編集(簡易版)
ページ名変更
メニュー非表示でページ編集
ページの閲覧/編集権限変更
ページの編集モード変更
このページにファイルをアップロード
メニューを編集
バージョン管理
最新版変更点(差分)
編集履歴(バックアップ)
アップロードファイル履歴
ページ操作履歴
ページ一覧
ページ一覧
このウィキのタグ一覧
このウィキのタグ(更新順)
このページの全コメント一覧
このウィキの全コメント一覧
RSS
このウィキの更新情報RSS
このウィキ新着ページRSS
ヘルプ
ご利用ガイド
Wiki初心者向けガイド(基本操作)
このウィキの管理者に連絡
運営会社に連絡(不具合、障害など)
aspirin-marcov @ ウィキ
操作ガイド
新規作成
編集する
全ページ一覧
登録/ログイン
aspirin-marcov @ ウィキ
操作ガイド
新規作成
編集する
全ページ一覧
登録/ログイン
aspirin-marcov @ ウィキ
このページを編集する
多点遺伝的関連研究に対する主成分回帰アプローチ
背景
関連解析は家族ベースの連鎖解析より検出力が高い(Risch and Merikangas 1996)
密なSNP情報が利用可能であるため、連鎖不平衡構造に注目が集まっている。
Clark 2004によるハプロタイプ解析のメリット
特定のアミノ酸の組み合わせが、タンパク質折りたたみに影響している可能性がある
ハプロタイプは、祖先から受け継がれる染色体上の断片そのものである
ハプロタイプ解析は、単点解析よりも検出力が高い(いくつかのSNPを統合し、自由度を減らすため)
しかしハプロタイプ解析には問題がある
マーカー数が増えると指数関数的に次元が増大し、多点検定の問題が悪化する
また、まれなハプロタイプをどう扱うかという問題もある
もうひとつの方法は遺伝子型ベースの単点解析である
ハプロタイプベースの方法より結果が理解しやすく、多く行われてきた
場合によっては単点解析のほうがハプロタイプ解析より検出力が高いという報告さえある
この場合、有意差はpermutation法、Bonferroniの方法、Sidakの方法などで推定する
さらにもうひとつの方法は、候補SNPにおける遺伝子型スコアを独立変数とし、重回帰分析を行うという方法(Chapman et al. 2003)
Fan and Knapp(2003)はHotellingのT
2
検定法を用いて関連解析を行った。→ロジスティック回帰分析と等価の方法
密に分布するSNPはたいてい相関しており、遺伝子型スコアの
共線性
が重大な問題である。
共線性のインパクトを減少させ、検出力を増大させるため対象領域の代表SNP (たとえばtagSNPs)を選択するという方法が、H-clustなどのアルゴリズムでは使用されている(Rinaldo et al, 2005)
これらの伝統的な方法のほか、多点遺伝子型データに特化した新しい方法も開発されてきている。
ひとつの方法は、対象領域でのSNPの関連パターンをあてはめるというものである(意味不明)。
Lazzeroni(1998)
は連鎖不平衡係数
を用いた方法。
ここで、Dはdisease,Nはnormalの状態、AはマーカーアレルAをcarryする状態。
Cordell and Elston (1999)
は、Fiellerの理論をもちいたもの。
Conti and Witte(2003)
は、連鎖不平衡構造の階層化モデリング
Zhang et al.(2003)
はベイズ適応回帰分析(?)を用いた方法。
Schaid(2005)らは、個体ペア同士の遺伝子型の類似性をスコア化したprespecified kernelを利用したノンパラメトリックな方法を提案した。ペアのスコアの平均をケースとコントロールで比較した。
Wessel and Schork(2006)は、kernelのかわりにゲノム類似性を測定して類似性ベースの回帰分析を提案した。
とても柔軟性に富んだ方法である
ゲノム類似性のたしかな測定法はわからない
Wang and Elston(2007)では遺伝子型データの
フーリエ変換
を行い変換された成分の重み付けを行った。
今回著者らは、最低限の説明変数で最大限に必要なSNP遺伝子型多様性を捕らえて行う回帰モデルとして、主成分回帰 (principal component regression, PCReg)アプローチを採用した。
この方法では、SNP遺伝子型スコアの共分散行列から計算された小数の主成分を説明変数として重回帰分析を行った。
主成分は、オリジナルのすべてのSNPの多様性のほとんどを説明できるように選択される。
SNP間の連鎖不平衡が強ければ強いほど、必要な主成分は少数で済む。
方法
n
individuals
遺伝子型データは0,1,2、対象領域にm個のSNP
g
ij
は個体iのj番目SNPの遺伝子型
G
=(
g
ij
)は
の遺伝子型行列
G
の各列の平均が0となるように中心化する
m
SNPsの遺伝子型スコアの共分散行列を
とするが、これは
に等しい。
(n-1)で割るのはなぜだろう?
は共分散行列
のcharacteristic root(固有値?)で、
は
と関連するcharacteristic vectorである(??固有ベクトルのこと?)
定義から、
である。
個体
i
の
k
番目のPC(主成分)は
である。
k番目のPCの分散は
である。
集合的に言うと、これらのPCは、SNP遺伝子型スコアの総分散をわけたものである。
は全SNPの遺伝子型スコアの分散と等しい(あるいは、
の対角行列の和と等しい)。
PCをならびかえる方法から言って、特定のPCは、その他すべてのPCと比較して、オリジナルのSNP遺伝子型スコアの総分散を説明するに当たってより重要である。
詳しい説明は、どんな本にだってのってるよ
二つの例
PCのかたちは扱いにくいけど、簡単な例ならなんとかなる
一例目
すべての二組のSNPの相関係数は定数である。
すべての遺伝子型スコアの分散は定数である。
すべてのSNPのMAFが同じなら、この仮定は妥当であろう。
最大の固有値は
で、その固有ベクトルは
である。
その他の固有値は全て
したがって最大の固有値による総分散の説明の割合は
で、これは常に
より大きい。
これはSNP数mが増えると減少するが、相関係数rが増えると増加する。r=1なら、mにかかわらず1である。
m=30, r=0.5なら割合は0.52である。これは、たったひとつのPCで30SNPの遺伝子型データの52%の分散を説明できることを意味する。
二例目
SNPを二つの分画に区切り、それぞれ
、
の数とする。
である。
ブロック1の相関係数は定数
とする。
ブロック2のSNPは互いに相関しておらず、ブロック1のSNPとも相関しないものとする。
この場合、最大の固有値は
で、固有ベクトルは
で、このベクトルのうち非0要素が
個となる。
最大のPCが説明する割合は
である。
これは最初の例よりも小さい値である。
つまり、SNP同士の相関が小さくなると、最初のPCで説明できる割合は減少する。
個のPCが存在し、それぞれ分散
、また
個のPCは分散
である。
相関のあるブロック1のSNPのみが分解されたという結果である。
いろいろm、m
1
、rを動かしてみると、最大のPCで説明できる割合はrに依存するがmにはあまり関係がないということがわかる。
PCSと回帰分析
最初の数個のPCでほとんどの多様性は説明できる。後述する実データでは、26SNPsを3つのPCで90%説明できる。
オリジナルのSNPに表現型との関連がないなら、PCの回帰係数は全て0になるはずである。検定はF検定を行う。
F統計量は自由度
、
のF分布に従うが、
は回帰に用いたPCsの数であり、
は
である。
はn個体の表現型ベクトルとする。中心化し、平均を0とする。表現型は連続型になっているので回帰モデルを次のように書ける。
yとGがともに中心化されているので切片は必要ない。
は
行列で、j列に
のj番目の固有ベクトルを配している。Aは直交系である。
と分割し、A
1
はPCRegの説明変数として用いるPC、A
2
は除外するPCである。
対応して
と分割する。
回帰式(1)は次のように書ける。
ここで
、
、
、
である。
PCRegでは、回帰モデルをつぎのようにとる。
(1)式と同様、誤差
は平均0の正規分布に従う。
であるから
の全項の和は0である。やはりこの式も切片をもたない。
ひきつづく解析でいくつのPCを使用するかにはたくさんのルールがある。
ひとつの一般的なルールは、80-90%の総分散を説明できるPCを選択するというもの
もうひとつは、固有値の平均を超える固有値を持つすべてのPCを選択するというもの。
scree plotが有用:
を
に対してプロットする。
統計学的検定を行うやりかたもある。
著者らの検討では「80-90%ルール」がうまくいった。
PCReg法は、これまでのいくつかの方法とは異なり、検出力はアレルのスコアリング法によらない。
より多くのPCをPCRegに含めれば、より検出力が高くなる、わけではない。
PCRegのregression sum of squares (SSR)は
ここで
は
のk番目の要素。
より多くのPCが含まれると、SSRは多くなったり少なくなったりする、というのも
は減っても、
はそうではないからである。
たしかに、説明変数の数が同じであれば、最大PCを用いたPCRegのF統計量は最大のものではないだろう。
「多点遺伝的関連研究に対する主成分回帰アプローチ」をウィキ内検索
最終更新:2007年10月08日 22:30
ツールボックス
下から選んでください:
新しいページを作成する
以下から選択してください
-------------------------
このページを編集
ページ名変更
差分
編集履歴
アップロード
-------------------------
新しいページ
ページ一覧
検索
-------------------------
ヘルプ
/
FAQ
もご覧ください。
メニュー
メニュー
TOBIRA
@ウィキ ガイド
@wiki 便利ツール
@wiki
更新履歴
取得中です。
rss & コンタクト & タグ
更新履歴
RSS Feed
管理者に連絡
タグ一覧