生物活性低分子のデータベースChEMBL、統合TV製作にむけて調査中

前回でMendeleyの統合TVを完成させたので新しいプロジェクトに取り掛かっています。
標的はニーズ?があったというChEMBL

ChEMBLdbは、創薬研究に有用な医薬品化合物の情報を提供するデータベースです。現在、約50万個の化合物情報、約190万件の活性情報及びそれらのターゲット情報が登録されています。ユーザーは、生物活性化合物の情報を部分構造検索や類似性検索で調査したり、また、ターゲットのアミノ酸配列からBLAST検索でアッセイ情報を収集することができます。
http://chembl.blogspot.jp/2009/11/blog-post.html

ターゲット情報は主にタンパク質構造を扱うPDBのようにユーザーがデータをDepositeする形ではなく、MedChem系ジャーナルの学術論文から外部委託で手動抽出しているらしい。ひええ。

おもなサービスは以下。

  • Target Search - タンパク質を名前/系統樹/BLAST配列から指定し、リガンドを探す
  • Compound Search - 化合物の構造を投げ、類似性から探す/名前から探す/SMILE・IDから探す
  • Analysis of key gene families - キナーゼとGPCRのSAR(Structure-activity Relationship)情報
  • Neglected Tropical Disease(NTD) archive  - 熱帯病の医薬品候補化合物DB

みんな大好きPubMedで"ChEMBL"検索したところヒットは72件(2013/8/23時点)
http://www.ncbi.nlm.nih.gov/pubmed/?term=ChEMBL
ざっと見たところ案の定?踊る"Prediction", "in silico screening", "linked open data", "High-throughput screening"等などの文字列。
想像どおりウェット屋さんよりかは創薬化学屋さん・ケモインフォマティクス屋さん御用達のサービスのようで。

日本語案件にもこんな活用例がありました。
MMPを構造ベースで解釈する試みはコンテキストが入りまくって一般性は得られないよね - http://blog.kzfmix.com/entry/1372239565
ChEMBLでMMP=Matched Molecular Pairs, 構造の一部共通した化合物の組み合わせを釣ってきて、特定のタンパク質に対するリガンド性を評価。できるの実際?

って話。

いろいろ何をどこまで紹介しようか考えこんでしまったのですが、まあPubChemの統合TVのようにシンプルな機能紹介をすればいいかなあと思っています。
詳しい内容は次回以降詰めていこうかと。