こんにちは。
最近、論文には載らない(一般的にも書いていない)部分である変異のvalidationに時間を要しています。
変異のvalidationってもちろんいろいろあると思います。論文に書いてあるやつだと、”変異はSanger法にて確認した”とか対象の患者さんにて実在することをちゃんと確認しましたっていうのとか。
今回、自分がやっているのは実在しないだろう変異を捨てるという作業です。
バリアントコールしてVCFには出てくるけど、患者さんには存在しないだろう変異です。
これが出てくる要因としてはいくつかあって、
・次世代シーケンサーの読み間違え
・バリアントコールのミス
とかあります。わかりやすいのだとホモポリマーストレッチとか。
ホモポリマーストレッチは例えば、TAAAAAAAでAが連続してるやつのことを言うんですが
次世代シーケンサーは人間の目みたいなもんで差分には強いんですが、ずっとAを読み続けてると変化がないんでよくわかんなくなって数を間違えることがあるんですよね。
そうすると同じヒトのシーケンス結果の中にAの数がちょっと多かったり少なかったりするリードが出てきて、これが一定数あるとバリアントコールしたときに変異じゃんって認識されてVCFに出てきます。
もちろん本当に実在する可能性を考慮しないといけないのですが、例えば、
患者A deletion chr8 89953700 TA T
患者A insertion chr8 89953700 T TA
参考:fasta >chr8:89953690-89953720
CCTTAGATTTAAAAAAAAAGAAGAAAACAA
っていう患者Aさんの出力があったときに、同じ患者さんから2タイプの出力??って思いながら、同じアレルで2つの変異はありえないので、つまり両方のアレルの全く同じポジションにdeletion と insertion があったかもしれない可能性しかないとなります。
しかし、同じポジションのアレルそれぞれに対称になるような変異ってありえるのだろうか、、、
って考えていくと、これは読み間違えなんじゃないかなぁって疑うわけです。
個人的にはホモポリマーストレッチ and 同じポジションでmultiallele(複数タイプ)の出力になってたら疑い始めてます。
こういうのの何が怖いって、プログラムとかNGSの出力的にあり得るから出てきてしまうのですが、生物学的にはあり得ない変異だったりして、真に受けちゃうと疾患に関連し得る有害な変異として機能的なアノテーションつけるとなってしまいます。
なので今みたいな前半で除外する必要があります。
他には偽陽性を捨てる作業もあり、これはbamを直接読み込んで、リード数がある程度以上あり、かつmutant allele frequency が0.25以上を対象とする、とか。
すごい極端な例ですが、リード3本しかフォローしてないポジションで2本がリファレンスと違うのでこのヒト、このポジションに変異あります!とか言われてもかなり信頼できないじゃないですか。
そういうのは偽陽性として捨てる。少なくともそのヒトはそこに変異があるとはみなさないという判断です。
ある程度はGATKのプログラムでもちろんできるんですが、こないだのHaplotypeCaller問題もあったので自分でも確認しています。
これを選抜するのにもう1,2ヶ月は要しているのですが大事な部分なので頑張ります。
大きなチームとか有名ラボはどういう風にvalidationしてるんだろうな。。。
コメント