おすすめはしません。
Windowsユーザーやマシンパワーが弱く自前でRNA-seqができない人用です。
ちなみにWindows10ユーザーは頑張れば自前でできます。
対象となる方
Mac・Linux・Windows 10ユーザーだけど、マシンスペック・・・
Windows 8 以前ユーザー
iPad ユーザー (キーボード入力必須)
条件
- Googleアカウントを所有している
- Google Driveに十分な空き容量があること
場合によっては有料(月250円)を使うことも必要
注意
- 本記事ではRNA-seqに関する細かいコマンドは説明しません。
- Google Colaboratoryを使ってRNA-seqを行う点に注力します。
- RNA-seqの解析法について細かく知りたい方は下記リンクを御覧ください。
● 超初心者向け!!誰でもできる!!RNA-seqのデータを自分で解析しよう
環境構築
今回ではgoogle colaboratory上で環境構築をしていきます。
行うことは
- minicondaとライブラリのインストール 2.リファレンスゲノムのダウンロードと解凍
- アノテーションファイルのアップロード
Minicondaとライブラリのインストール
%%bash wget https://repo.continuum.io/miniconda/Miniconda3-py38_4.8.3-Linux-x86_64.sh && bash Miniconda3-py38_4.8.3-Linux-x86_64.sh -bfp /usr/local conda config --add channels conda-forge conda config --add channels bioconda conda install hisat2 samtools stringtie
RNA-seq解析用のライブラリ(HISAT2, samtools, stringtie)は最後の行で一気にインストールしています。
必要なファイルのダウンロード
リファレンスのダウンロードとファイルの解凍
%%bash wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz tar -zxvf mm10.tar.gz rm mm10.tar.gz
アノテーションファイルの解凍
アノテーションファイルはブラウザを使用してUSCSのHPからダウンロードしたものを
Google Colaboratoryのディレクトリ/content
にアップロードしてください。
アノテーションファイルの取得方法は、
アップロードの仕方は、マウスでドラッグ・アンド・ドロップで可能です。
未解凍の.gzファイルの場合は以下のコマンドで解凍してください。
%%bash gzip -d -k /content/UCSC.mm10.gtf.gz
アノテーションファイルの解凍
stringtieでgtfファイルをmergeさせる時に必要なmergelistファイルを作成しておきます。
詳細は、
テキストエディタで作成したものをcolaboratory上にアップロードしてもOKです。
今回はcolaboratoryを使って作成しました。
merge_list = ['SRR15719'+str(i)+'.gtf' for i in range(67,73)] merge_txt = '\n'.join(merge_list) with open('mergelist.txt', mode='w') as f: f.write(merge_txt)
以上で環境準備は終了です。
次回から実際にマッピングしていこうと思います。