align-itを使ってみた

以前からファーマコフォアベースで分子をアライメントするツールをささっとかけると
良いな〜って思ってました。
社内リソースを使おうと思うと、ライセンスの限りがあるのでオンデマンドに解析できなかったりするためです。
RDKitでやっている事例があったのでそれを参考に書いてみたのですが、途中でだんだん複雑になってしまい、ちょっとそのまま放置しています。
そこで、もう少し簡単にということでalign-itを使ってみました。
これは前にも紹介したsilicos-itから公開されているオープンソースです。
Openbabelがカバーするフォーマットを入出力に使えるので、特定のフォーマットに変換するという作業から解放されてよいと思います。
インストールはマニュアルに従って

> cd /usr/local/src
> sudo tar -xvf ~/Downloads/align-it-1.0.1.tar.gz
> cd align-it-1.0.1
> sudo mkdir build
> cd build
> sudo cmake ..
> sudo make
> sudo make install

でよいと思います。ubuntuにパッケージマネージャーでopenbabel入れてある状態でやると
openbabel2 無い。とエラーがでました。どうもパッケージマネージャーではな入らないみたいですのでこの場合は、自分でopenbabelを最初にビルドしてやるといいかと思います。

続いてテスト用のファイルの準備です。
今回は面倒なんでpubchemでEGFR阻害剤のデータ21化合物をとってきました。
二個目の分子をリファレンス(ref.sdf)としてアライメントします。

$ align-it -r ref.sdf -d pubmed_egfr.sdf -p out.phar -o out.sdf -s score.tab --rankBy TANIMOTO
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  Align-it v1.0.1 | Apr  1 2012 11:40:30

  -> GCC:         4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2336.1.00)
  -> Open Babel:  2.3.1

  Copyright 2012 by Silicos-it, a division of Imacosi bvba

  Align-it is free software: you can redistribute it and/or modify
  it under the terms of the GNU Lesser General Public License as published
  by the Free Software Foundation, either version 3 of the License, or
  (at your option) any later version.

  Align-it is distributed in the hope that it will be useful,
  but WITHOUT ANY WARRANTY; without even the implied warranty of
  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  GNU Lesser General Public License for more details.

  Align-it is linked against OpenBabel version 2.
  OpenBabel is free software; you can redistribute it and/or modify
  it under the terms of the GNU General Public License as published by
  the Free Software Foundation version 2 of the License.
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

COMMAND_LINE OPTIONS:

  -> Reference file:    ref.sdf
  -> Reference type:    MOL
  -> Database file:     pubmed_egfr.sdf
  -> Database type:     MOL
  -> Mol output file:   out.sdf
  -> Pharm output file: out.phar
  -> Scores file:       score.tab
  -> Cutoff:            no
  -> Best hits:         no
  -> Rank by:           0
  -> Functional groups: AROM HDON HACC LIPO NEGC POSC HYBH HYBL
  -> Hybrids:           yes
  -> Epsilon:           0.5
  -> Merge pharm:       no
  -> Include normals:   yes
  -> With exclusion:    no
  -> Scores only:       no
  -> Quied mode:        no

Reference pharmacophore 5328042
   number of points:            8
   number of exclusion spheres: 0
   totalvolume:                 192.851
..
Processed 21 molecules
21 alignments in 0.849194 seconds (24.7293 alignments per second).

結果

$ more out.phar
NAME
HYBL    -1.24093        1.32284 0.407397        0.7     0       -0.120027       -0.867182       0.289608
HYBL    -3.03966        -0.157844       -0.170924       0.7     0       -0.120027       -0.867182       0.289608
HDON    0.564533        -0.760158       0.474673        1       1       0.236509        -1.68345        0.274832
HDON    -3.99885        -2.74223        -0.736352       1       1       -4.34047        -3.66037        -0.937119
HYBL    -1.01379        2.35455 0.601621        0.7     0       -0.120027       -0.867182       0.289608
HYBL    -3.67946        0.960047        -0.140495       0.7     0       -0.120027       -0.867182       0.289608
$$$$
NAME
HYBL    -1.23497        1.32782 0.409317        0.7     0       0       0       -1.11022e-16
HYBL    -3.03463        -0.151717       -0.169017       0.7     0       0       -1.66533e-16    -2.77556e-17
HYBL    3.35087 -0.639483       0.171317        0.7     0       0       0       0
HDON    0.5692  -0.7563 0.4762  1       1       0.208101        -1.67633        0.628354
HDON    -3.9954 -2.7354 -0.7347 1       1       -4.33756        -3.65332        -0.935583
HYBL    -1.04641        2.3288  0.59128 0.7     0       2.22045e-16     -4.44089e-16    -1.11022e-16
HYBL    -3.66258        0.968428        -0.135842       0.7     0       -4.44089e-16    0       2.77556e-17
HYBL    4.39451 -0.954693       0.404542        0.7     0       8.88178e-16     0       -5.55112e-17
$$$$

.pharにはフィーチャー ファーマコフォアの三次元座標 ガウシアン体積のα値 方向性があるかないかのブール値 そのベクトル
のタブ区切りがかえってきます。このデータって何で見れるんだろう???

またオプションの -sはスコアを返すので

lion:pubmed_egf iwatobipen $ cat score.tab
5328042	192.851	5328028	165.959	138.741	0	138.741	6	0.6304	0.7194	0.836
5328042	192.851	5328042	192.851	192.851	0	192.851	8	1	1	1
5328042	192.851	9818251	165.959	150.395	0	150.395	7	0.7216	0.7798	0.9062
5328042	192.851	9882519	192.851	163.02	0	163.02	7	0.7321	0.8453	0.8453
5328042	192.851	9885081	165.959	150.406	0	150.406	7	0.7217	0.7799	0.9063
5328042	192.851	10220590	219.743	191.497	0	191.497	8	0.8661	0.993	0.8715
5328042	192.851	10222656	192.851	178.099	0	178.099	8	0.8579	0.9235	0.9235
5328042	192.851	10245856	150.209	149.599	0	149.599	6	0.7733	0.7757	0.9959
5328042	192.851	10276061	192.851	163.018	0	163.018	7	0.7321	0.8453	0.8453
5328042	192.851	10868706	123.318	94.8864	0	94.8864	4	0.4288	0.492	0.7694
5328042	192.851	10870494	177.101	136.714	0	136.714	6	0.5862	0.7089	0.772
5328042	192.851	10902421	139.067	110.037	0	110.037	5	0.4959	0.5706	0.7912
5328042	192.851	10905749	165.959	158.397	0	158.397	7	0.7904	0.8213	0.9544
5328042	192.851	10926736	150.209	94.7072	0	94.7072	4	0.3813	0.4911	0.6305
5328042	192.851	10938977	192.851	150.2	0	150.2	7	0.6378	0.7788	0.7788
5328042	192.851	10992313	150.209	149.602	0	149.602	6	0.7733	0.7757	0.996
5328042	192.851	11012217	80.6759	79.1852	0	79.1852	3	0.4075	0.4106	0.9815
5328042	192.851	11055442	123.318	94.7115	0	94.7115	4	0.4277	0.4911	0.768
5328042	192.851	11080556	192.851	162.84	0	162.84	7	0.7307	0.8444	0.8444
5328042	192.851	11807783	165.959	163.157	0	163.157	7	0.8339	0.846	0.9831
5328042	192.851	11822927	123.318	109.048	0	109.048	5	0.5265	0.5654	0.8843

となりそれぞれの列はマニュアルにあるように
column Content
—— ———————————————————————
1 Id of the reference structure
2 Maximum volume of the reference structure
3 Id of the database structure
4 Maximum volume of the database structure
5 Maximum volume overlap of the two structures
6 Overlap between pharmacophore and exclusion spheres in the reference
7 Corrected volume overlap between database pharmacophore and reference
8 Number of pharmacophore points in the processed pharmacophore
9 TANIMOTO score
10 TVERSKY_REF score
11 TVERSKY_DB score

となってます。
2列目と5列目が近い程よく重なってるということになります。
また -o 指定をすることでアライメント後の分子を書き出すことにしています。
CUIしか無いですが、結構有用なツールと思いました。

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s