Aritalab:Lecture/Database/BioDatabase
Contents |
参考資料
ゲノムやバイオインフォマティクスに関するデータベースやウェブツールは数千以上あります。人気のツールや簡単な使い方を知るには、以下のサイトや本を参考にしてください。
- 統合TV curated : 統合データベースセンターが提供する、ツールの使い方や解析法のストリームビデオです。
- 羊土社 実験医学増刊 「使えるデータベース・ウェブツール」(有田正規/編)
- 羊土社 バイオデータベースとウェブツールの手とり足とり活用法 (中村保一ほか/編)
世界のデータベース
NCBI
National Center for Biotechnology Information (NCBI) は、米国の国立衛生研究所 (National Institute of Health; NIH) 傘下の国立医学図書館 (National Library of Medicine; NLM) の一部門として1988年に設立されました。生物学の情報を集約・無償提供する、最も代表的なデータベースセンターの一つです。
PubMed | 2000万以上の文献情報(多くは概要のみ)を収録する文献データベース。主要雑誌については過去に遡って収録しつづけており、登録雑誌数は 5000 以上。
PubMed Centralは論文の全文を収録する。 |
PubChem | 2004年よりNIHが開始したプロジェクト[1]でスタートした化学物質構造のデータベース。多くの重複があるが8500万化合物が収録されている。 |
GenBank | NCBIができる以前の1982年、ロスアラモス国立研究所で開始されたDNA配列のデータベース。ここに配列を登録してIDを取得しないと論文を受理しない制度を確立したため、世界中の配列が集まった。投稿された配列は本人でないと修正・削除できないため、誤りや重複も多い。ヨーロッパ (EMBL) と日本 (遺伝研) との3極構造でデータを共有しながらサービスしている。
2011年時点で38万生物種の2億配列 (327G塩基対)が収録されている。 |
RefSeq | GenBankから人手で冗長性を排し、各遺伝子産物ごとに揃えたデータベース。
1万生物種の1300万タンパク質、200万転写産物が収録されている。 ヒトやマウスについては網羅性が高い。 |
Gene | RefSeqをさらに遺伝子領域毎にまとめたデータベース。染色体上の遺伝子位置ごとにまとめてあり、以前はLocusLinkという名前で呼ばれていた。 |
Taxonomy | 生物種の系統樹データベース。真核生物21万種、原核生物10万種が分類されている。ゲノム解析による結果と、従来の系統学による分類とのハイブリッドになっている。 |
Gene Expression Omnibus(GEO) | 遺伝子発現量を測定したマイクロアレイのデータベース。
文献リンクだけでなく、実験の概要も登録されている。 |
EMBL, EBI
欧州分子生物学研究所 (European Molecular Biology Laboratory; EMBL) は米国への頭脳流出を防ぐために1974年に設立された欧州共同体が管轄する研究所です。20ヶ国が参加し、オーストラリアとも連携しています。ここで得られたデータは欧州バイオインフォマティクス研究所 (European Bioinformatics Institute; EBI) からの公開が義務付けられています。
ChEMBL | 化合物情報、活性情報、構造情報などを文献をもとに整理した化合物データベース。類似のデータベースに、英国王立化学会 (Royal Society of Chemistry) による ChemSpider がある。2011年時点の収録化合物数は 2500 万件。 |
UniProt | タンパク質配列・機能に関する統合データベース。もともとは Swiss ProtおよびPIR (protein information resource) と呼ばれるたんぱく質配列と機能部位に関するデータベースをEMBLが引き取って継続運営したものです。人手で注釈付けをおこなうSwiss Prot, PIR情報に対してゲノムから自動処理した情報を TrEMBL という名前で公開しています。 |
Ensembl | 公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。遺伝子の機能単位に注目した研究に向いている。BioMartを用いたデータマイニングを含め様々な機能が提供された標準ブラウザ。 |
PDB europe | Protein Data Bank は、日本の [ PDBj], 米国の BMRB と組んで3極で管理するタンパク質立体構造のデータベースです。
データは定期的にアップデートしコピーを共有しますが、各サイト毎に独自の検索機能が提供されています。現在 7万程度のタンパク質立体構造が登録されています。 |
InterPro | タンパク質のドメイン情報データベース。Psi-BLASTによってまとめたドメイン、隠れマルコフモデルによって求めたドメイン、アミノ酸モチーフなど様々な情報を提供。 |
Pfam | EBIの隣に立っているサンガー研究所が提供する、タンパク質ドメインファミリーのデータベース。隠れマルコフモデルを用いてファミリーを検出しています。 |
Rfam | 同じくサンガー研による、非コードRNAファミリーのデータベース。確率文脈自由文法を用いてファミリーを検出しています。 |
UCSC
カリフォルニア大学サンタクルーズ校はスパコンを用いたゲノム解析の拠点であり、とりわけヒトゲノム国際コンソーシアムでアセンブルを担当したJim Kentがデザインしたゲノムブラウザで有名です。
UCSC Genome Browser | 公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。ゲノム全体を眺めるのに向いており、データの大量ダウンロードも楽。 |
その他
GO
GO は遺伝子の機能や分類を樹状に体系化したデータベース。Gene Ontology Consortium が体系を管理し、Molecular Function, Cellular Component, Biological Process という3側面から各遺伝子をアノテーションしている。機能や部位は GOタームと呼ばれる予約語で記述し、各タームには GO:0000001 のようにID番号が振られている。
KEGG
Kyoto Encyclopedia of Genes and Genomesは代謝マップをウェブ化したデータベース。生物種ごとの自動アノテーション結果を、代謝マップ上に張り付けて閲覧可能にしています。
- 参考文献
- ↑ Molecular Libraries and Molecular Imaging というロードマップの一環。