HaplotypeCallerとUnifiedGenotyper

GATK3をいまだに使っています。
GATK: https://gatk.broadinstitute.org/hc/en-us

普段はHaplotypeCaller一択なんですが、データを利用している先行論文と変異が一致せず、その方達がUnifiedGenotyperを併用していたので試しに使ってみたら検出できました。

これってどう言うことなん？って思ったのですが、試して見たところ、

GATK3 HaplotypeCaller → 検出できない
GATK3 UnifiedGenotyper → 検出できる
GATK4 HaplotypeCaller → 検出できる

こう言う挙動の変異がいくつか存在するという恐ろしい結果が出ました。

GATK3 HaplotypeCallerで検出できない変異をIGVで見たら普通にヘテロであるんですよね。

リード数も数百リードあるし…。

これってバグなんですかね、GATK4でUnifiedGenotyperを吸収した結果、直ってるみたいだし。

もちろん多くはないのですが、先行論文がある以上、なんで検出した変異数とかが違うんだというご指摘は論文投稿の際に言われるので確認しとかないとですね。

っと言うことでannovarまで進んでた変異リストを更新しなければならなくなり、時間をロスした感がありますが致し方ない・・・

こういう現象に遭遇するとヒトゲノムで共通のパイプラインがあれば楽なのになぁって思う反面、取れない変異があるのだから研究の性質によってパイプラインが変わるのもまた然り、と思います。

どんなツールでも苦手なことはありますからね

そして、さっさとGATK4を導入しようと思った今日この頃でした。

ちなみにcallできない変異はcallしたいポジションのbedをvcfから作成して、強制的にそこのリードをカウントするプログラムをsamtools使ってやりました。

最終的にはmutation allele frequencyが0.25以上ぐらいの変異のみを対象とするようにした方が良さそうです。

ここら辺も昔使ってたプログラムを流用しようって思っていたのですが、いざ動かしてみると微調整とか今回のデータセット用に調整しないといけなかったりで時間を喰っています。

今回のデータセットはJGAからダウンロードしてきたのですが、シーケンスを自分でやっていないので、サンプル間のデプスが違いすぎたりした時に、ライブラリー濃度とか合わせてないん？って思いつつ、こちらが悪いのではないかと調べたりするのに時間がかかったりで結構、論文に書いてないところで悩む次第です。

あと悩むのはオプション。論文ではGATKのHaplotypeCallerと〜とか書いてるんですが細かいオプションが気になるんですよね。

結果がズレてる時にオプションが違うんか？ってすごい原因の調査に悩む

っていう、人様のデータを使わせていただくのも結構大変だなぁって思いながら作業しております。

まさに再現性なんですが、ツールが変わった時点で再現性は意外と担保されないなぁっていうのを今回しみじみ感じました。

同じGATKでも違うんだから、それこそ有償のソフトとか使ってる論文とかってそれでしか検出できない変異とか出てきますよね。
とある有償のツールが独自の解析アルゴリズムだからGATKとかと一致率が低くて使えないという話は聞いたことあるし、GATKを使ってる有償のツールもあるんだけどオプションの融通が効かんとかという話もある。

つまり、初学者向けに完成されたパイプラインっていうのはあると良いと思うのだけれど、ガチで変異解析やるなら自分で組まないとあかんやろうなぁって上の方の結論に戻るという（笑

みんなが同じパイプラインだと解析する側としてはすごく楽なんだけど、取りこぼしが起きて患者さんに不利益になる方がダメだからね

っていう延々と変異の再現性を確認しながら思ったことをつらつらと書いただけの記事でした。