以前からファーマコフォアベースで分子をアライメントするツールをささっとかけると
良いな〜って思ってました。
社内リソースを使おうと思うと、ライセンスの限りがあるのでオンデマンドに解析できなかったりするためです。
RDKitでやっている事例があったのでそれを参考に書いてみたのですが、途中でだんだん複雑になってしまい、ちょっとそのまま放置しています。
そこで、もう少し簡単にということでalign-itを使ってみました。
これは前にも紹介したsilicos-itから公開されているオープンソースです。
Openbabelがカバーするフォーマットを入出力に使えるので、特定のフォーマットに変換するという作業から解放されてよいと思います。
インストールはマニュアルに従って
> cd /usr/local/src > sudo tar -xvf ~/Downloads/align-it-1.0.1.tar.gz > cd align-it-1.0.1 > sudo mkdir build > cd build > sudo cmake .. > sudo make > sudo make install
でよいと思います。ubuntuにパッケージマネージャーでopenbabel入れてある状態でやると
openbabel2 無い。とエラーがでました。どうもパッケージマネージャーではな入らないみたいですのでこの場合は、自分でopenbabelを最初にビルドしてやるといいかと思います。
続いてテスト用のファイルの準備です。
今回は面倒なんでpubchemでEGFR阻害剤のデータ21化合物をとってきました。
二個目の分子をリファレンス(ref.sdf)としてアライメントします。
$ align-it -r ref.sdf -d pubmed_egfr.sdf -p out.phar -o out.sdf -s score.tab --rankBy TANIMOTO +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Align-it v1.0.1 | Apr 1 2012 11:40:30 -> GCC: 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2336.1.00) -> Open Babel: 2.3.1 Copyright 2012 by Silicos-it, a division of Imacosi bvba Align-it is free software: you can redistribute it and/or modify it under the terms of the GNU Lesser General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version. Align-it is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU Lesser General Public License for more details. Align-it is linked against OpenBabel version 2. OpenBabel is free software; you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation version 2 of the License. +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ COMMAND_LINE OPTIONS: -> Reference file: ref.sdf -> Reference type: MOL -> Database file: pubmed_egfr.sdf -> Database type: MOL -> Mol output file: out.sdf -> Pharm output file: out.phar -> Scores file: score.tab -> Cutoff: no -> Best hits: no -> Rank by: 0 -> Functional groups: AROM HDON HACC LIPO NEGC POSC HYBH HYBL -> Hybrids: yes -> Epsilon: 0.5 -> Merge pharm: no -> Include normals: yes -> With exclusion: no -> Scores only: no -> Quied mode: no Reference pharmacophore 5328042 number of points: 8 number of exclusion spheres: 0 totalvolume: 192.851 .. Processed 21 molecules 21 alignments in 0.849194 seconds (24.7293 alignments per second).
結果
$ more out.phar NAME HYBL -1.24093 1.32284 0.407397 0.7 0 -0.120027 -0.867182 0.289608 HYBL -3.03966 -0.157844 -0.170924 0.7 0 -0.120027 -0.867182 0.289608 HDON 0.564533 -0.760158 0.474673 1 1 0.236509 -1.68345 0.274832 HDON -3.99885 -2.74223 -0.736352 1 1 -4.34047 -3.66037 -0.937119 HYBL -1.01379 2.35455 0.601621 0.7 0 -0.120027 -0.867182 0.289608 HYBL -3.67946 0.960047 -0.140495 0.7 0 -0.120027 -0.867182 0.289608 $$$$ NAME HYBL -1.23497 1.32782 0.409317 0.7 0 0 0 -1.11022e-16 HYBL -3.03463 -0.151717 -0.169017 0.7 0 0 -1.66533e-16 -2.77556e-17 HYBL 3.35087 -0.639483 0.171317 0.7 0 0 0 0 HDON 0.5692 -0.7563 0.4762 1 1 0.208101 -1.67633 0.628354 HDON -3.9954 -2.7354 -0.7347 1 1 -4.33756 -3.65332 -0.935583 HYBL -1.04641 2.3288 0.59128 0.7 0 2.22045e-16 -4.44089e-16 -1.11022e-16 HYBL -3.66258 0.968428 -0.135842 0.7 0 -4.44089e-16 0 2.77556e-17 HYBL 4.39451 -0.954693 0.404542 0.7 0 8.88178e-16 0 -5.55112e-17 $$$$
.pharにはフィーチャー ファーマコフォアの三次元座標 ガウシアン体積のα値 方向性があるかないかのブール値 そのベクトル
のタブ区切りがかえってきます。このデータって何で見れるんだろう???
またオプションの -sはスコアを返すので
lion:pubmed_egf iwatobipen $ cat score.tab 5328042 192.851 5328028 165.959 138.741 0 138.741 6 0.6304 0.7194 0.836 5328042 192.851 5328042 192.851 192.851 0 192.851 8 1 1 1 5328042 192.851 9818251 165.959 150.395 0 150.395 7 0.7216 0.7798 0.9062 5328042 192.851 9882519 192.851 163.02 0 163.02 7 0.7321 0.8453 0.8453 5328042 192.851 9885081 165.959 150.406 0 150.406 7 0.7217 0.7799 0.9063 5328042 192.851 10220590 219.743 191.497 0 191.497 8 0.8661 0.993 0.8715 5328042 192.851 10222656 192.851 178.099 0 178.099 8 0.8579 0.9235 0.9235 5328042 192.851 10245856 150.209 149.599 0 149.599 6 0.7733 0.7757 0.9959 5328042 192.851 10276061 192.851 163.018 0 163.018 7 0.7321 0.8453 0.8453 5328042 192.851 10868706 123.318 94.8864 0 94.8864 4 0.4288 0.492 0.7694 5328042 192.851 10870494 177.101 136.714 0 136.714 6 0.5862 0.7089 0.772 5328042 192.851 10902421 139.067 110.037 0 110.037 5 0.4959 0.5706 0.7912 5328042 192.851 10905749 165.959 158.397 0 158.397 7 0.7904 0.8213 0.9544 5328042 192.851 10926736 150.209 94.7072 0 94.7072 4 0.3813 0.4911 0.6305 5328042 192.851 10938977 192.851 150.2 0 150.2 7 0.6378 0.7788 0.7788 5328042 192.851 10992313 150.209 149.602 0 149.602 6 0.7733 0.7757 0.996 5328042 192.851 11012217 80.6759 79.1852 0 79.1852 3 0.4075 0.4106 0.9815 5328042 192.851 11055442 123.318 94.7115 0 94.7115 4 0.4277 0.4911 0.768 5328042 192.851 11080556 192.851 162.84 0 162.84 7 0.7307 0.8444 0.8444 5328042 192.851 11807783 165.959 163.157 0 163.157 7 0.8339 0.846 0.9831 5328042 192.851 11822927 123.318 109.048 0 109.048 5 0.5265 0.5654 0.8843
となりそれぞれの列はマニュアルにあるように
column Content
—— ———————————————————————
1 Id of the reference structure
2 Maximum volume of the reference structure
3 Id of the database structure
4 Maximum volume of the database structure
5 Maximum volume overlap of the two structures
6 Overlap between pharmacophore and exclusion spheres in the reference
7 Corrected volume overlap between database pharmacophore and reference
8 Number of pharmacophore points in the processed pharmacophore
9 TANIMOTO score
10 TVERSKY_REF score
11 TVERSKY_DB score
となってます。
2列目と5列目が近い程よく重なってるということになります。
また -o 指定をすることでアライメント後の分子を書き出すことにしています。
CUIしか無いですが、結構有用なツールと思いました。