Aritalab:Lecture/Database/BioDatabase

From Metabolomics.JP
Jump to: navigation, search

Contents

参考資料

ゲノムやバイオインフォマティクスに関するデータベースやウェブツールは数千以上あります。人気のツールや簡単な使い方を知るには、以下のサイトや本を参考にしてください。

世界のデータベース

NCBI

National Center for Biotechnology Information (NCBI) は、米国の国立衛生研究所 (National Institute of Health; NIH) 傘下の国立医学図書館 (National Library of Medicine; NLM) の一部門として1988年に設立されました。生物学の情報を集約・無償提供する、最も代表的なデータベースセンターの一つです。

NLM が提供する主なデータベース
PubMed 2000万以上の文献情報(多くは概要のみ)を収録する文献データベース。主要雑誌については過去に遡って収録しつづけており、登録雑誌数は 5000 以上。

PubMed Centralは論文の全文を収録する。

PubChem 2004年よりNIHが開始したプロジェクト[1]でスタートした化学物質構造のデータベース。多くの重複があるが8500万化合物が収録されている。
GenBank NCBIができる以前の1982年、ロスアラモス国立研究所で開始されたDNA配列のデータベース。ここに配列を登録してIDを取得しないと論文を受理しない制度を確立したため、世界中の配列が集まった。投稿された配列は本人でないと修正・削除できないため、誤りや重複も多い。ヨーロッパ (EMBL) と日本 (遺伝研) との3極構造でデータを共有しながらサービスしている。

2011年時点で38万生物種の2億配列 (327G塩基対)が収録されている。

RefSeq GenBankから人手で冗長性を排し、各遺伝子産物ごとに揃えたデータベース。

1万生物種の1300万タンパク質、200万転写産物が収録されている。 ヒトやマウスについては網羅性が高い。

Gene RefSeqをさらに遺伝子領域毎にまとめたデータベース。染色体上の遺伝子位置ごとにまとめてあり、以前はLocusLinkという名前で呼ばれていた。
Taxonomy 生物種の系統樹データベース。真核生物21万種、原核生物10万種が分類されている。ゲノム解析による結果と、従来の系統学による分類とのハイブリッドになっている。
Gene Expression Omnibus(GEO) 遺伝子発現量を測定したマイクロアレイのデータベース。

文献リンクだけでなく、実験の概要も登録されている。

EMBL, EBI

欧州分子生物学研究所 (European Molecular Biology Laboratory; EMBL) は米国への頭脳流出を防ぐために1974年に設立された欧州共同体が管轄する研究所です。20ヶ国が参加し、オーストラリアとも連携しています。ここで得られたデータは欧州バイオインフォマティクス研究所 (European Bioinformatics Institute; EBI) からの公開が義務付けられています。

EMBL が提供する主なデータベース
ChEMBL 化合物情報、活性情報、構造情報などを文献をもとに整理した化合物データベース。類似のデータベースに、英国王立化学会 (Royal Society of Chemistry) による ChemSpider がある。2011年時点の収録化合物数は 2500 万件。
UniProt タンパク質配列・機能に関する統合データベース。もともとは Swiss ProtおよびPIR (protein information resource) と呼ばれるたんぱく質配列と機能部位に関するデータベースをEMBLが引き取って継続運営したものです。人手で注釈付けをおこなうSwiss Prot, PIR情報に対してゲノムから自動処理した情報を TrEMBL という名前で公開しています。
Ensembl 公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。遺伝子の機能単位に注目した研究に向いている。BioMartを用いたデータマイニングを含め様々な機能が提供された標準ブラウザ。
PDB europe Protein Data Bank は、日本の [ PDBj], 米国の BMRB と組んで3極で管理するタンパク質立体構造のデータベースです。

データは定期的にアップデートしコピーを共有しますが、各サイト毎に独自の検索機能が提供されています。現在 7万程度のタンパク質立体構造が登録されています。

InterPro タンパク質のドメイン情報データベース。Psi-BLASTによってまとめたドメイン、隠れマルコフモデルによって求めたドメイン、アミノ酸モチーフなど様々な情報を提供。
Pfam EBIの隣に立っているサンガー研究所が提供する、タンパク質ドメインファミリーのデータベース。隠れマルコフモデルを用いてファミリーを検出しています。
Rfam 同じくサンガー研による、非コードRNAファミリーのデータベース。確率文脈自由文法を用いてファミリーを検出しています。

UCSC

カリフォルニア大学サンタクルーズ校はスパコンを用いたゲノム解析の拠点であり、とりわけヒトゲノム国際コンソーシアムでアセンブルを担当したJim Kentがデザインしたゲノムブラウザで有名です。

UCSC が提供する主なデータベース
UCSC Genome Browser 公共プロジェクトによるゲノム配列データをリファレンスゲノムにマッピングしたゲノムブラウザ。ゲノム全体を眺めるのに向いており、データの大量ダウンロードも楽。

その他

GO

GO は遺伝子の機能や分類を樹状に体系化したデータベース。Gene Ontology Consortium が体系を管理し、Molecular Function, Cellular Component, Biological Process という3側面から各遺伝子をアノテーションしている。機能や部位は GOタームと呼ばれる予約語で記述し、各タームには GO:0000001 のようにID番号が振られている。

KEGG

Kyoto Encyclopedia of Genes and Genomesは代謝マップをウェブ化したデータベース。生物種ごとの自動アノテーション結果を、代謝マップ上に張り付けて閲覧可能にしています。


参考文献
  1. Molecular Libraries and Molecular Imaging というロードマップの一環。
Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox