導入
- 研究者の決定すべきこと
- tagSNPsを選択し、優先順位をつける
- どの関連検定を行うか決める
- 予想される結果の統計学的有意さを評価する
- genotypingすることにより関連研究の検出力がどれくらいになるかの定量的な関連に関しては発表されていない。
- multimarker haplotypeの使用により効率の改善が見られているが、欠点もある。
- ハプロタイプ解析が自由度や検定の回数を増やすのであれば、検出力はむしろ減少してしまう。
- 異なったtag付けと検定アプローチの効率と検出力のトレードオフを検討した。
- 疾患関連研究における予測される検出力はthe most relevant measure of merit(たとえば、tag SNPsとタイプされていないバリアントとの相関係数の分布の比較)なので、関連研究を明示的にモデル化した。
- tagSNPsの密度と検定の方法は検定の回数に影響を与えるので、経験的に有意水準を評価した。
- 結果はヒトLD属性に密接に依存するので、モデル化した。
結果
empirical genotype dataを用いた関連研究
- HapMap ENCODEからcase-control panelを作成した。
- 48検体について10箇所の500kbのENCODE regionのresequenceを行い、ディスカバーされたSNPsを269HapMapサンプルにおいてタイピングした。
- このデータセットからひとつのSNPを'causal'としてデザインした。
- 1000ケースと1000コントロールで、p=0.01を検出力95%で達成できるようにした。
- コンスタントな検出力を得るためにはMAFとpenetranceが逆相関している必要がある。 - これを避ける方法:よくわからない。
- 関連研究のシミュレーション
- すでにフェージングされたデータから500kbの領域をランダムに抜き出した。
- これを1000case, 1000controlが得られるまで繰り返した。
- そのようなパネルを25個作成した。
- それぞれのパネルからtagSNPsを選択し、null panelの上位1%をこえることを陽性所見とした。
complete reference panelにおいて全ての部位をcaptureする
- ??冒頭よくわからず
- perfect proxy (r2=1.0)であるtagSNPsを選ぶ
- タイピングに必要なSNPは、YRIで46%、CHB+JPTで65%減少した。また、検出力は全SNPタイピングとかわりはない。
- そこでこれ以降、このセットとの比較で相対的な検出力を検討する。
- multimarker taggingのの効率増大について検討した。
- 少し懸念材料があるのでモデル化したようだけどよくわからない。
- 検出力は100%で、変わらなかった。
- 必要なSNPs数はYRIで26%、CEUで30%、CHB+JPTで28%減少した。
tagSNP選択の閾値を緩めることによる効率増大
- 次の二つを検討
- 全てのcommon alleleを捕まえるややゆるいr2閾値
- サブセットのみだが高いr2閾値
- やや低めの閾値(r2 ≥ 0.8)で相対検出力はほとんどかわらず、96%であった。
- tagはさらにYRIで36%、CEUで47%、CHB+JPTで55%減少した。
- さらに閾値を減らすと、タイピングするSNP数は減少するが、検出力も急速に減少した。
- 別のアプローチでは、tagをproxyとして働くSNPs数でランク付けし、優先順にタイピングするというもの(best N法)
- この方法では、r2閾値を減らすよりも効率がよい
- この方法で10kbごとにSNPを選択すると、相対検出力はYRIで77%、CEUで95%、CHB+JPTで92%であった。
最終更新:2007年06月20日 14:59