超初心者向け!! RNA-seq解析シリーズの記事になります。
今回は、解析に使うデータを公共データベースからダウンロードしていきたいと思います。
これまでの記事はこちら↓
● 超初心者向け!!誰でもできる!!RNA-seqのデータを自分で解析しよう - LifeScience Hack
● 超初心者向け!!RNA-seq解析シリーズ① ターミナルでコマンドラインを使う - LifeScience Hack
● 超初心者向け!!RNA-seq解析シリーズ② 環境設定 - LifeScience Hack
NGS公共データベース
では、早速公共データベースよりRNA-seqデータをダウンロードしていきます。
NGSのデータベースはDDBJやNCBI、EBIがありますが、
貯蔵されているデータはそれらの間で定期的に同期されているので、
ほぼ同じと考えて大丈夫です。
今回はDDBJを使いたいと思います。
今年のノーベル賞がHIF1でしたので、
HIF
KO
transcriptome
をキーワードに検索してみましょう。
ダウンロードファイルの検索
解析に使うデータを公共データベースより検索します。
今回は、「HIF KO transcriptome 」で探してみます。
まずは、以下のリンクよりDDBJサイトを開きます。
ブラウザはChromeを激しく推奨します。
Safariだと途中でFTPが見れなくなる可能性大!!
DDBJのサイトはこちら→DDBJ Sequence Read Archive - Home
- DDBJのホームページを開いて、Searchをクリック
Keywordに
HIF KO transcriptome
といれて、SearchをクリックStudy列の「SRP046746」をクリックしてみましょう
AbstractとExperimentを確認
その実験の概要と各サンプル情報とデータへのリンクが確認できます Experiment欄にそれぞれのサンプル情報とデータへのリンクが記載されています
Experimentには6つのリンクがありますので、サンプルは全部で6サンプルでそれぞれ、SRX698161、SRX698162、SRX698163、SRX698164、SRX698165、SRX698166というIDが付いていますね
Experimentの一番上「SRX698161」を開いてみましょうサンプル情報をよく確認 ● 何処置サンプル?コントロール?→ Title
● RNA-seq?→ Strategy
● 動物はなに?→ Organism
● シングルエンド?ペアエンド?→ Layout
これらを確認しておきましょう。
FTPによるダウンロード
解析するデータも決まり、内容も確認しましたので、
実際にダウンロードしていきましょう!!
DDBJからはサーバーとのやりとりで使われるFTPを介してダウンロードできます。
FTPでは簡単にデータのやりとりができますが、速度が遅いことが多々あります。
気楽にすぐにダウンロードしたい方はFTPで十分だと思います。
ダウンロードはブラウザでクリックでもできますが、
折角ですのでターミナルを使いましょう。
FTPでのダウンロードにはwget
コマンドを使用します。
wgetのインストール
ターミナルを開いて出てくる$
の後に、
以下のコマンドを打ってwgetをインストールします
$ brew install wget
試しに、$
の後ろに以下のコマンドを入力してヘルプが出れば、インストール完了です。
$ wget --help
ダウンロードURLの取得
※必ずChromeで行ってください!!
先程のStudyのページからそれぞれのExperimentにある
fastqをクリックしましょう!!
すると、今回を例にとるとidの後ろに1と2のある.fastq.bz2ファイルがあるかと思います。
今回はペアエンドでのRNA-seqでしたので、1と2があります。
それぞれ、ダウンロードしましょう。
その前にフォルダ(ディレクトリ)の確認と移動は忘れずに!!
今回は、デスクトップにRNA-seqというフォルダを新たに作り、
そこに移動してそこにダウンロードしていきます。
$ pwd /users/UserName/ $ cd Desktop $ pwd /users/UserName/Desktop $ mkdir RNA-seq $ cd RNA-seq $ pwd /users/UserName/Desktop/RNA-seq
mkdir フォルダ名
で新しいフォルダを作成できます。
RNA-seqというフォルダを作り、cd
でそのフォルダに移動しました。
今回はここにfastqファイルをダウンロードしていきたいと思います。
ダウンロードする際はwget -c url
でダウンロードできます。
-c
の前後は半角スペースです。
url
の部分には実際のFTPサーバーのURLを入れます。
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698161/SRR1571967_2.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698162/SRR1571968_2.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698163/SRR1571969_2.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698164/SRR1571970_2.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698165/SRR1571971_2.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_1.fastq.bz2 wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA183/SRA183322/SRX698166/SRR1571972_2.fastq.bz2
ファイルの解凍
bzip2ファイルの解答はbzip2 -d file
コマンドでできます。
-d
の前後は半角スペースです。
file
のところには実際のファイル名が入ります。
bzip2 -d SRR1571967_1.fastq.bz2 bzip2 -d SRR1571967_2.fastq.bz2 bzip2 -d SRR1571968_1.fastq.bz2 bzip2 -d SRR1571968_2.fastq.bz2 bzip2 -d SRR1571969_1.fastq.bz2 bzip2 -d SRR1571969_2.fastq.bz2 bzip2 -d SRR1571970_1.fastq.bz2 bzip2 -d SRR1571970_2.fastq.bz2 bzip2 -d SRR1571971_1.fastq.bz2 bzip2 -d SRR1571971_2.fastq.bz2 bzip2 -d SRR1571972_1.fastq.bz2 bzip2 -d SRR1571972_2.fastq.bz2
これで解析用ファイルの準備が完了しました。
次回からはいよいよHisat2によるマッピングを行っていきます。