LifeScience Hack

生物系創薬研究者がAI(誇大表示)を手に入れるまでの過程(Python、Deep Learning、ライフサイエンス)

Pythonで論文情報をまとめてゲットする② ~ 下準備 ~ 

今回はPythonPubmed APIを使うための準備編です。

Pubmed APIについては前回の記事で軽く書きました。

lifesciencehack-ai.hatenablog.com

ここからはPythonがPCにインストール済みであることを前提で進めていきます。

まだの方はまずはこちらからPythonのインストールをお願いします。

概要

使用するpythonのパッケージは以下の通り

使用するパッケージ

・Pandas | データを格納するデータフレームを作成できる
・Openpyxl | エクセルファイルを開いたり作成する
・Requests | urlを開いてその返り値を取得できる
json | Requestsなどで返したjsonを扱う


流れとしては、

1. PMIDの取得 (Requests, json, pandas)
Requestsを用いてESearchで検索ワードを入れてPMID一覧を取得し、pandasに格納
2. 論文情報を取得
PMIDよりESummaryを使って論文情報 (タイトル、年、著者、ジャーナル)を取得し、pandasに格納
3. Abstractの取得(Requests, json, pandas)
PMIDよりEFetchを使ってアブストラクトを取得し、pandasに格納
4. データの出力・保存(panadas, openpyxl)
Pandasに格納した情報をOpenpyxlでエクセルに書き出して保存

パッケージのインストール

Anacondaをインストールしている方は基本的に不要ですが、 もし必要なパッケージがインストールされていない場合は、 WindowならコマンドプロンプトMacならターミナルを起動させて下記コマンドを入力し、 必要なパッケージをインストールしてください。

pip install requests
pip install openpyxl
pip install json
pip install pandas


パッケージのインポート

jupyter notebookを起動させ、必要なパッケージをインポートします。

import pandas as pd
import openpyxl
import json
import requests

エラーが出ずに実行できたら、準備OKです。 エラーが出た場合は、そのパッケージがインストールされてないかと思いますので、 上を参考にインストールしてください。

以上で準備編は終了です。