超初心者向け！！RNA-seq解析シリーズ③公共データベースからRNA-seqデータをダウンロード

超初心者向け!! RNA-seq解析シリーズの記事になります。
今回は、解析に使うデータを公共データベースからダウンロードしていきたいと思います。

これまでの記事はこちら↓

● 超初心者向け！！誰でもできる！！RNA-seqのデータを自分で解析しよう - LifeScience Hack

● 超初心者向け！！RNA-seq解析シリーズ① ターミナルでコマンドラインを使う - LifeScience Hack

● 超初心者向け！！RNA-seq解析シリーズ② 環境設定 - LifeScience Hack

NGS公共データベース
ダウンロードファイルの検索
- FTPによるダウンロード
  - wgetのインストール
- ダウンロードURLの取得
ファイルの解凍

NGS公共データベース

では、早速公共データベースよりRNA-seqデータをダウンロードしていきます。

NGSのデータベースはDDBJやNCBI、EBIがありますが、
貯蔵されているデータはそれらの間で定期的に同期されているので、
ほぼ同じと考えて大丈夫です。今回はDDBJを使いたいと思います。
今年のノーベル賞がHIF1でしたので、 HIF KO transcriptomeをキーワードに検索してみましょう。

ダウンロードファイルの検索

解析に使うデータを公共データベースより検索します。

今回は、「HIF KO transcriptome 」で探してみます。

まずは、以下のリンクよりDDBJサイトを開きます。
ブラウザはChromeを激しく推奨します。
Safariだと途中でFTPが見れなくなる可能性大！！

DDBJのサイトはこちら→DDBJ Sequence Read Archive - Home

DDBJのホームページを開いて、Searchをクリック
KeywordにHIF KO transcriptomeといれて、Searchをクリック
Study列の「SRP046746」をクリックしてみましょう
AbstractとExperimentを確認
その実験の概要と各サンプル情報とデータへのリンクが確認できます Experiment欄にそれぞれのサンプル情報とデータへのリンクが記載されています
Experimentには6つのリンクがありますので、サンプルは全部で6サンプルでそれぞれ、SRX698161、SRX698162、SRX698163、SRX698164、SRX698165、SRX698166というIDが付いていますね
Experimentの一番上「SRX698161」を開いてみましょう
サンプル情報をよく確認 ● 何処置サンプル？コントロール？→ Title
● RNA-seq？→ Strategy
● 動物はなに？→ Organism
● シングルエンド？ペアエンド？→ Layout

これらを確認しておきましょう。

FTPによるダウンロード

解析するデータも決まり、内容も確認しましたので、
実際にダウンロードしていきましょう!!

DDBJからはサーバーとのやりとりで使われるFTPを介してダウンロードできます。
FTPでは簡単にデータのやりとりができますが、速度が遅いことが多々あります。

気楽にすぐにダウンロードしたい方はFTPで十分だと思います。ダウンロードはブラウザでクリックでもできますが、
折角ですのでターミナルを使いましょう。

FTPでのダウンロードにはwgetコマンドを使用します。

wgetのインストール

ターミナルを開いて出てくる$の後に、
以下のコマンドを打ってwgetをインストールします

$ brew install wget

試しに、$の後ろに以下のコマンドを入力してヘルプが出れば、インストール完了です。

$ wget --help

ダウンロードURLの取得

※必ずChromeで行ってください！！
先程のStudyのページからそれぞれのExperimentにある
fastqをクリックしましょう！！

すると、今回を例にとるとidの後ろに1と2のある.fastq.bz2ファイルがあるかと思います。
今回はペアエンドでのRNA-seqでしたので、1と2があります。
それぞれ、ダウンロードしましょう。
その前にフォルダ（ディレクトリ）の確認と移動は忘れずに！！

今回は、デスクトップにRNA-seqというフォルダを新たに作り、
そこに移動してそこにダウンロードしていきます。

$ pwd
/users/UserName/
$ cd Desktop
$ pwd
/users/UserName/Desktop
$ mkdir RNA-seq
$ cd RNA-seq
$ pwd
/users/UserName/Desktop/RNA-seq

mkdir フォルダ名で新しいフォルダを作成できます。
RNA-seqというフォルダを作り、cd でそのフォルダに移動しました。
今回はここにfastqファイルをダウンロードしていきたいと思います。

ダウンロードする際はwget -c urlでダウンロードできます。 -cの前後は半角スペースです。
urlの部分には実際のFTPサーバーのURLを入れます。

wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_2.fastq.bz2
wget -c 
ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_2.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_1.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_2.fastq.bz2

ファイルの解凍

bzip2ファイルの解答はbzip2 -d fileコマンドでできます。
-dの前後は半角スペースです。
fileのところには実際のファイル名が入ります。

bzip2 -d SRR1571967_1.fastq.bz2
bzip2 -d SRR1571967_2.fastq.bz2
bzip2 -d SRR1571968_1.fastq.bz2
bzip2 -d SRR1571968_2.fastq.bz2
bzip2 -d SRR1571969_1.fastq.bz2
bzip2 -d SRR1571969_2.fastq.bz2
bzip2 -d SRR1571970_1.fastq.bz2
bzip2 -d SRR1571970_2.fastq.bz2
bzip2 -d SRR1571971_1.fastq.bz2
bzip2 -d SRR1571971_2.fastq.bz2
bzip2 -d SRR1571972_1.fastq.bz2
bzip2 -d SRR1571972_2.fastq.bz2

これで解析用ファイルの準備が完了しました。
次回からはいよいよHisat2によるマッピングを行っていきます。