LifeScience Hack

生物系創薬研究者がAI(誇大表示)を手に入れるまでの過程(Python、Deep Learning、ライフサイエンス)

超初心者向け!!RNA-seq解析シリーズ③公共データベースからRNA-seqデータをダウンロード

超初心者向け!! RNA-seq解析シリーズの記事になります。
今回は、解析に使うデータを公共データベースからダウンロードしていきたいと思います。

これまでの記事はこちら↓

超初心者向け!!誰でもできる!!RNA-seqのデータを自分で解析しよう - LifeScience Hack

超初心者向け!!RNA-seq解析シリーズ① ターミナルでコマンドラインを使う - LifeScience Hack

超初心者向け!!RNA-seq解析シリーズ② 環境設定 - LifeScience Hack

NGS公共データベース

では、早速公共データベースよりRNA-seqデータをダウンロードしていきます。

NGSのデータベースはDDBJNCBIEBIがありますが、
貯蔵されているデータはそれらの間で定期的に同期されているので、
ほぼ同じと考えて大丈夫です。 今回はDDBJを使いたいと思います。
今年のノーベル賞がHIF1でしたので、 HIF KO transcriptomeをキーワードに検索してみましょう。

ダウンロードファイルの検索

解析に使うデータを公共データベースより検索します。

今回は、「HIF KO transcriptome 」で探してみます。

まずは、以下のリンクよりDDBJサイトを開きます。
ブラウザはChromeを激しく推奨します。
Safariだと途中でFTPが見れなくなる可能性大!!

DDBJのサイトはこちら→DDBJ Sequence Read Archive - Home

  1. DDBJのホームページを開いて、Searchをクリック f:id:tottoham:20191125224707p:plain
  2. KeywordにHIF KO transcriptomeといれて、Searchをクリック f:id:tottoham:20191125233029p:plain

  3. Study列の「SRP046746」をクリックしてみましょう f:id:tottoham:20191125233244p:plain

  4. AbstractとExperimentを確認 f:id:tottoham:20191125230958p:plain
    その実験の概要と各サンプル情報とデータへのリンクが確認できます Experiment欄にそれぞれのサンプル情報とデータへのリンクが記載されています
    Experimentには6つのリンクがありますので、サンプルは全部で6サンプルでそれぞれ、SRX698161、SRX698162、SRX698163、SRX698164、SRX698165、SRX698166というIDが付いていますね

    Experimentの一番上「SRX698161」を開いてみましょう

  5. サンプル情報をよく確認 f:id:tottoham:20191125231914p:plain ● 何処置サンプル?コントロール?→ Title
    RNA-seq?→ Strategy
    ● 動物はなに?→ Organism
    ● シングルエンド?ペアエンド?→ Layout

これらを確認しておきましょう。

FTPによるダウンロード

解析するデータも決まり、内容も確認しましたので、
実際にダウンロードしていきましょう!!

DDBJからはサーバーとのやりとりで使われるFTPを介してダウンロードできます。
FTPでは簡単にデータのやりとりができますが、速度が遅いことが多々あります。

気楽にすぐにダウンロードしたい方はFTPで十分だと思います。 ダウンロードはブラウザでクリックでもできますが、
折角ですのでターミナルを使いましょう。

FTPでのダウンロードにはwgetコマンドを使用します。

wgetのインストール

ターミナルを開いて出てくる$の後に、
以下のコマンドを打ってwgetをインストールします

$ brew install wget

試しに、$の後ろに以下のコマンドを入力してヘルプが出れば、インストール完了です。

$ wget --help

ダウンロードURLの取得

※必ずChromeで行ってください!!
先程のStudyのページからそれぞれのExperimentにある
fastqをクリックしましょう!!

すると、今回を例にとるとidの後ろに1と2のある.fastq.bz2ファイルがあるかと思います。
今回はペアエンドでのRNA-seqでしたので、1と2があります。
それぞれ、ダウンロードしましょう。
その前にフォルダ(ディレクトリ)の確認と移動は忘れずに!!

今回は、デスクトップにRNA-seqというフォルダを新たに作り、
そこに移動してそこにダウンロードしていきます。

$ pwd
/users/UserName/
$ cd Desktop
$ pwd
/users/UserName/Desktop
$ mkdir RNA-seq
$ cd RNA-seq
$ pwd
/users/UserName/Desktop/RNA-seq

mkdir フォルダ名で新しいフォルダを作成できます。
RNA-seqというフォルダを作り、cd でそのフォルダに移動しました。
今回はここにfastqファイルをダウンロードしていきたいと思います。

ダウンロードする際はwget -c urlでダウンロードできます。 -cの前後は半角スペースです。
urlの部分には実際のFTPサーバーのURLを入れます。

wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_2.fastq.bz2
wget -c 
ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_2.fastq.bz2

ファイルの解凍

bzip2ファイルの解答はbzip2 -d fileコマンドでできます。
-dの前後は半角スペースです。
fileのところには実際のファイル名が入ります。

bzip2 -d SRR1571967_1.fastq.bz2
bzip2 -d SRR1571967_2.fastq.bz2
bzip2 -d SRR1571968_1.fastq.bz2
bzip2 -d SRR1571968_2.fastq.bz2
bzip2 -d SRR1571969_1.fastq.bz2
bzip2 -d SRR1571969_2.fastq.bz2
bzip2 -d SRR1571970_1.fastq.bz2
bzip2 -d SRR1571970_2.fastq.bz2
bzip2 -d SRR1571971_1.fastq.bz2
bzip2 -d SRR1571971_2.fastq.bz2
bzip2 -d SRR1571972_1.fastq.bz2
bzip2 -d SRR1571972_2.fastq.bz2

これで解析用ファイルの準備が完了しました。
次回からはいよいよHisat2によるマッピングを行っていきます。