interval のための bed file 作成まとめ

GATKで使用する bed file の作り方をまとめておく(いつも忘れるので)

① UCSC Genome Browser へアクセスする

UCSC Genome Browser Home
UCSC Genome Browser

② Tools の Table Browser に行く

genome: Human

assembly: 使っているReference(fasta)と同じものを選ぶ

group: Genes and Gene Predictions

track: NCBI RefSeq

identities: paste listを押して、標的の遺伝子名を入力

output format: BED

output file: 出力ファイルの名前を入力(自分の好きな名前でOK。拡張子を.bed)

残りのフィールドとは自動的に出てきたそのままでOK

③ get outputを押す

④-1 UTRを含むターゲットシーケンスのとき

選択画面が出てくるので、Exons plusにチェック、

エクソンの両端何塩基をシーケンスしているかによって、

例えば、50とか20という値を入力

get BEDを押す

④-2 UTRを含まない場合

Coding Exons

を選ぶとUTRを削除した形で得られる。

ただ、この場合だと、両端のオフセットが取れないので、

ダウンロードした後でBEDのスタートポジションを-20し、

エンドポジション+20することで両端のオフセットを追加したBEDファイルがgetできる。 

⑤ 出力にchr10_KQ090021v1_fixのようなコンティグも出てくるので削除する

コメント

タイトルとURLをコピーしました