Aritalab:Lecture/Database/BioDatabase

参考資料

ゲノムやバイオインフォマティクスに関するデータベースやウェブツールは数千以上あります。人気のツールや簡単な使い方を知るには、以下のサイトや本を参考にしてください。

統合TV curated : 統合データベースセンターが提供する、ツールの使い方や解析法のストリームビデオです。
羊土社実験医学増刊「使えるデータベース・ウェブツール」(有田正規／編)
羊土社バイオデータベースとウェブツールの手とり足とり活用法 (中村保一ほか／編)

世界のデータベース

NCBI

National Center for Biotechnology Information (NCBI) は、米国の国立衛生研究所 (National Institute of Health; NIH) 傘下の国立医学図書館 (National Library of Medicine; NLM) の一部門として1988年に設立されました。生物学の情報を集約・無償提供する、最も代表的なデータベースセンターの一つです。

NLM が提供する主なデータベース
PubMed	2000万以上の文献情報（多くは概要のみ）を収録する文献データベース。主要雑誌については過去に遡って収録しつづけており、登録雑誌数は 5000 以上。 PubMed Centralは論文の全文を収録する。
PubChem	2004年よりNIHが開始したプロジェクト^[1]でスタートした化学物質構造のデータベース。多くの重複があるが8500万化合物が収録されている。
GenBank	NCBIができる以前の1982年、ロスアラモス国立研究所で開始されたDNA配列のデータベース。ここに配列を登録してIDを取得しないと論文を受理しない制度を確立したため、世界中の配列が集まった。投稿された配列は本人でないと修正・削除できないため、誤りや重複も多い。ヨーロッパ (EMBL) と日本 (遺伝研) との3極構造でデータを共有しながらサービスしている。 2011年時点で38万生物種の2億配列 (327G塩基対)が収録されている。
RefSeq	GenBankから人手で冗長性を排し、各遺伝子産物ごとに揃えたデータベース。 1万生物種の1300万タンパク質、200万転写産物が収録されている。ヒトやマウスについては網羅性が高い。
Gene	RefSeqをさらに遺伝子領域毎にまとめたデータベース。染色体上の遺伝子位置ごとにまとめてあり、以前はLocusLinkという名前で呼ばれていた。
Taxonomy	生物種の系統樹データベース。真核生物21万種、原核生物10万種が分類されている。ゲノム解析による結果と、従来の系統学による分類とのハイブリッドになっている。
Gene Expression Omnibus(GEO)	遺伝子発現量を測定したマイクロアレイのデータベース。文献リンクだけでなく、実験の概要も登録されている。

EMBL, EBI

欧州分子生物学研究所 (European Molecular Biology Laboratory; EMBL) は米国への頭脳流出を防ぐために1974年に設立された欧州共同体が管轄する研究所です。20ヶ国が参加し、オーストラリアとも連携しています。ここで得られたデータは欧州バイオインフォマティクス研究所 (European Bioinformatics Institute; EBI) からの公開が義務付けられています。

EMBL が提供する主なデータベース
ChEMBL	化合物情報、活性情報、構造情報などを文献をもとに整理した化合物データベース。類似のデータベースに、英国王立化学会 (Royal Society of Chemistry) による ChemSpider がある。2011年時点の収録化合物数は 2500 万件。
UniProt	タンパク質配列・機能に関する統合データベース。もともとは Swiss ProtおよびPIR (protein information resource) と呼ばれるたんぱく質配列と機能部位に関するデータベースをEMBLが引き取って継続運営したものです。人手で注釈付けをおこなうSwiss Prot, PIR情報に対してゲノムから自動処理した情報を TrEMBL という名前で公開しています。
Ensembl	公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。遺伝子の機能単位に注目した研究に向いている。BioMartを用いたデータマイニングを含め様々な機能が提供された標準ブラウザ。
PDB europe	Protein Data Bank は、日本の [ PDBj], 米国の BMRB と組んで3極で管理するタンパク質立体構造のデータベースです。データは定期的にアップデートしコピーを共有しますが、各サイト毎に独自の検索機能が提供されています。現在 7万程度のタンパク質立体構造が登録されています。
InterPro	タンパク質のドメイン情報データベース。Psi-BLASTによってまとめたドメイン、隠れマルコフモデルによって求めたドメイン、アミノ酸モチーフなど様々な情報を提供。
Pfam	EBIの隣に立っているサンガー研究所が提供する、タンパク質ドメインファミリーのデータベース。隠れマルコフモデルを用いてファミリーを検出しています。
Rfam	同じくサンガー研による、非コードRNAファミリーのデータベース。確率文脈自由文法を用いてファミリーを検出しています。

UCSC

カリフォルニア大学サンタクルーズ校はスパコンを用いたゲノム解析の拠点であり、とりわけヒトゲノム国際コンソーシアムでアセンブルを担当したJim Kentがデザインしたゲノムブラウザで有名です。

UCSC が提供する主なデータベース
UCSC Genome Browser	公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。ゲノム全体を眺めるのに向いており、データの大量ダウンロードも楽。

その他

GO

GO は遺伝子の機能や分類を樹状に体系化したデータベース。Gene Ontology Consortium が体系を管理し、Molecular Function, Cellular Component, Biological Process という３側面から各遺伝子をアノテーションしている。機能や部位は GOタームと呼ばれる予約語で記述し、各タームには GO:0000001 のようにID番号が振られている。

KEGG

Kyoto Encyclopedia of Genes and Genomesは代謝マップをウェブ化したデータベース。生物種ごとの自動アノテーション結果を、代謝マップ上に張り付けて閲覧可能にしています。

参考文献

↑ Molecular Libraries and Molecular Imaging というロードマップの一環。

[0] Molecular Libraries and Molecular Imaging というロードマップの一環。

[1]

Aritalab:Lecture/Database/BioDatabase

Contents

参考資料

世界のデータベース

NCBI

EMBL, EBI

UCSC

その他

GO

KEGG

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

metabolites

Toolbox