GATKで使用する bed file の作り方をまとめておく(いつも忘れるので)
① UCSC Genome Browser へアクセスする
UCSC Genome Browser Home
UCSC Genome Browser
② Tools の Table Browser に行く
genome: Human
assembly: 使っているReference(fasta)と同じものを選ぶ
group: Genes and Gene Predictions
track: NCBI RefSeq
identities: paste listを押して、標的の遺伝子名を入力
output format: BED
output file: 出力ファイルの名前を入力(自分の好きな名前でOK。拡張子を.bed)
残りのフィールドとは自動的に出てきたそのままでOK
③ get outputを押す
④-1 UTRを含むターゲットシーケンスのとき
選択画面が出てくるので、Exons plusにチェック、
エクソンの両端何塩基をシーケンスしているかによって、
例えば、50とか20という値を入力
get BEDを押す
④-2 UTRを含まない場合
Coding Exons
を選ぶとUTRを削除した形で得られる。
ただ、この場合だと、両端のオフセットが取れないので、
ダウンロードした後でBEDのスタートポジションを-20し、
エンドポジション+20することで両端のオフセットを追加したBEDファイルがgetできる。
⑤ 出力にchr10_KQ090021v1_fixのようなコンティグも出てくるので削除する
コメント