初めてのRNA-seq解析 by Rhelixa RNA-seq解析パイプライン

SRAデータを使ったRNA-seqを初めて行ったのでその記録を残しときます。

使ったのは国立遺伝学研究所のスパコン環境で使えるRhelixa RNA-seq解析パイプライン

Add important notice 2024 Third Term to Featured News

これをさっそく適当にダウンロードしてきたSRAデータでページに書いてある通り、解析してみました。

$module load singularity/3.5.2 $export GEA_HOME=/lustre7/singularity/images/gene_expression_analysis

$singularity exec -B ${GEA_HOME}/refs:${GEA_HOME}/refs ${GEA_HOME}/gene_expression_analysis.sif GeneExpressionAnalysisSingle.sh Sample hg19 SRR13764564_1.fastq SRR13764564_2.fastq

で動きましたが、、、

[warning][os,thread] Failed to start thread - pthread_create failed (EAGAIN) for attributes: stacksize: 1024k, guardsize: 4k, detached.

というエラーがめっちゃでました。これはスパコンにログインするときにメモリサイズを指定しておかないとデフォルトだと小さいとのことです。

メモリサイズの指定をしなかったからか、なかなか時間がかかりましたがとりあえず出力はえられました。

Sample/featureCounts/Sample_count.txtをRで見てみる。

この方の記録を参考にそのまま頑張ってみた。

$breaks

[1] 4 6 8 10 12 14 16 18 20 22 24 26 28 30

$counts

[1] 1792 771 693 545 499 427 351 322 301 269 242 232 133

$density

[1] 0.13623232 0.05861335 0.05268359 0.04143226 0.03793523 0.03246161

[7] 0.02668390 0.02447925 0.02288277 0.02045005 0.01839745 0.01763722

[13] 0.01011099

$mids

[1] 5 7 9 11 13 15 17 19 21 23 25 27 29

$xname

[1] "d$Sample.hisat2.Sample.bam"

$equidist

[1] TRUE

attr(,"class")

[1] "histogram"

ここまでは順調にできた。

☆正規化☆

edgeR か DEseq で作業してみようと思うがその前に勉強が必要そう

インストール手順などはまたこの方のを見ながら勉強させていただいた。

Rhelixa RNA-seq解析パイプラインの問題点は複数のbamファイルをfeatureCountsに入れれなさそうなところ…（勘違いだったらすいません…）

イメージではこの方の紹介しているように全部放り込みたい

サルマップ2018 (2) featureCountsを使ったbamファイルのリードのカウント - ノンコーディングRNAネオタクソノミ

サルでもできるマッピングの次はサルでもできるリードカウントです。ん？サルでできるカウントならサルカン2018か、、、まあ、変えるのはめんどくさいので、サルマップシリーズで続けていくことにします。今回はRNAseqの解析なので、まずはリボゾームのリードを除いておきます。この辺りの流れも二階堂さんのペー...

けど、まぁ一個ずつのファイルの７カラム目を回収していけば良いっちゃ良いか…

また次回！