LifeScience Hack

生物系創薬研究者がAI(誇大表示)を手に入れるまでの過程(Python、Deep Learning、ライフサイエンス)

MacやLinuxを使わずにRNA-seqの解析を行う①~Google ColaboratoryでRNA-seq解析~準備編

おすすめはしません。

MacLinuxユーザーは前の記事を参考にしてください。

Windowsユーザーやマシンパワーが弱く自前でRNA-seqができない人用です。

ちなみにWindows10ユーザーは頑張れば自前でできます。

対象となる方

MacLinuxWindows 10ユーザーだけど、マシンスペック・・・

Windows 8 以前ユーザー

iPad ユーザー (キーボード入力必須)

条件

  • Googleアカウントを所有している
  • Google Driveに十分な空き容量があること
    場合によっては有料(月250円)を使うことも必要

注意

  • 本記事ではRNA-seqに関する細かいコマンドは説明しません。
  • Google Colaboratoryを使ってRNA-seqを行う点に注力します。
  • RNA-seqの解析法について細かく知りたい方は下記リンクを御覧ください。

● 超初心者向け!!誰でもできる!!RNA-seqのデータを自分で解析しよう

環境構築

今回ではgoogle colaboratory上で環境構築をしていきます。
行うことは

  1. minicondaとライブラリのインストール 2.リファレンスゲノムのダウンロードと解凍
  2. アノテーションファイルのアップロード

Minicondaとライブラリのインストール

%%bash
wget https://repo.continuum.io/miniconda/Miniconda3-py38_4.8.3-Linux-x86_64.sh && bash Miniconda3-py38_4.8.3-Linux-x86_64.sh -bfp /usr/local

conda config --add channels conda-forge
conda config --add channels bioconda
conda install hisat2 samtools stringtie

RNA-seq解析用のライブラリ(HISAT2, samtools, stringtie)は最後の行で一気にインストールしています。

必要なファイルのダウンロード

リファレンスのダウンロードとファイルの解凍

%%bash
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
tar -zxvf mm10.tar.gz
rm mm10.tar.gz 

アノテーションファイルの解凍

アノテーションファイルはブラウザを使用してUSCSのHPからダウンロードしたものを
Google Colaboratoryのディレクト/contentにアップロードしてください。
アノテーションファイルの取得方法は、

ここの「アノテーションファイルの取得」を参照ください

アップロードの仕方は、マウスでドラッグ・アンド・ドロップで可能です。
未解凍の.gzファイルの場合は以下のコマンドで解凍してください。

%%bash
gzip -d -k /content/UCSC.mm10.gtf.gz

アノテーションファイルの解凍

stringtieでgtfファイルをmergeさせる時に必要なmergelistファイルを作成しておきます。
詳細は、

ここの「gtfファイルをmergeする」を参照ください

テキストエディタで作成したものをcolaboratory上にアップロードしてもOKです。
今回はcolaboratoryを使って作成しました。

merge_list = ['SRR15719'+str(i)+'.gtf' for i in range(67,73)]
merge_txt = '\n'.join(merge_list)
with open('mergelist.txt', mode='w') as f:
    f.write(merge_txt)

以上で環境準備は終了です。
次回から実際にマッピングしていこうと思います。

続きはこちら lifesciencehack-ai.hatenablog.com