特許をパースする

不勉強にてxmlって ブラウザで見られるけど何これ? と以前思ってました。、、、恥ずかしい よくよく調べるととても便利そうです。 で、xml形式の特許があると解析に使えそうと思うわけです。 集めてきた特許から、番号や、優先日、出願人とかの情報をささっと一覧にできると いいよなーと思っていたこともあったので、 google先生に聞くとそんなことずいぶん前からなされているようでした。。。 さて、xml形式の特許が結構簡単に入手できる環境が整ったので テスト的にスクリプトを作ってみました。 これは同じフォルダにある.xml形式のファイルをを全部読み込んで出願人とかをタブ区切りで出力します。  フランス語とか、エンコでこけるのでアブスとは英語に限定しました。 相当行けてないスクリプト感ただよいますが、一応動いた。のでモチっと改良する予定 xmlの階層構造がそもそも勉強に使っていた例に比べるとかなり入り組んでいたのでまだ不具合たくさん出そうです。 がんばると、テキストなのでバラバラにして複数の出願人がどれくらいの頻度出るかとか、簡単に見れそうです。

Advertisement

shape-itを使ってみた

2Dの分子の類似性を比較する場合、各種FP計算を実施してあれこれ考えるわけですが、 社内的都合にて3Dの場合、ささっと使えるツールが無い訳です。世の中的にはOpenEye社のROCSが使われることが多そうな気がします。文献出の引用例や、ユーザー会のプレゼンをみてもかなり良さげです。 お気に入りのRDKitにはShapeTanimotoメソッッドがありますが、アライメントは別途かける必要があるのでちょいと面倒でございました。 そんなおり、某ワークショップで、silicos-itのshape-itは?と教えていただきました(ありがとうございます)。 winではちゃちゃっとBuildするのは無理そうなんでまずはMacでやってみます。 shape-itのマニュアルを読んでみるとベースにOpenBabelを使っているのでOpenBabelがフォローするファイルフォーマットならなんでもOKという点も良い感じです。 Buildはマニュアルに従って, で準備は完了です。 続いてテスト用のファイルの準備です。全部openbabelでやればいいという噂もありますが、こちらは自分のスキルの都合上RDKitで取りあえずのファイルを作ります。テストファイルはpubchemからもらったDYRK1Kのデータ。 2Dの分子から3D配座を発生させて取りあえずUFFで一応最適化しておきます。 全部の準備が終わったので 実行してみました。 ここでは先頭の分子をreferenceとして使います。 結果 volumeだけの比較になりますが、ちゃんとアライメントもかけて出力してくれそうです。 背景をもう少しちゃんとフォローしてもう少しバリエーションのあるセットで試してみようと思います。 あとは配座発生も考えるとそれなりにバルキーな計算になりそうです。

RDKitで一気にタニモト係数を計算する

最近知ったのですがRDKit分子のリストからタニモト係数を一気に求めるには BulkTanimotSimilarity関数を使うといいということでした。 今までは とか書いて順次タニモト係数を計算して適当にリストに入れこんだりしていましたが とするとindex 0 の分子とリストのタニモト係数の計算結果のリストを返してくれます。 コードがちょっと短くなります。 上の例だ自分自信のシミラリティも計算してしまうので とか書くと三角行列になるかと思います。 クラスタリングなんかに使えるかな。 距離にするなら1.0-タニモト係数の結果を使うとよさそうです。 補足 RDKitのMorgan法によるFingerPrintでは半径を指定するのでpipelinepilotのECFP4に相当するFPを得るためにはMorganFPでは2を引数に当てるようです。

RDKitでQED

QEDはNature Chemistry に報告されている 指標です。 “Quantitative Estimate of Drug-Likeness” (QED) QEDとケミストの得点を比較したデータ等、興味深いデータが乗っています。 SIにpipeline pilotのプロトコールがあるのでppがあればさくっとできますが、同様のことをRDKitでも実現できます。 silicos-it のHPに紹介されているBiscu-itを入れるとよいです。インストールはHPにある通りで $ cd /usr/local/src $ mv ~/Downloads/biscu-it-*.tar.gz . $ sudo tar -xvf biscu-it-*.tar.gz $ cd biscu-it-* で $ python setup.py install 以上 とすると読み込んだSDFのQEDが算出されます。

RDKit Build

RDKitはオープンソースでありながら充実したライブラリがそろっていて、やりたいことが結構できるのでお気に入り。 定期的にver upするのでそれもいいのだが、インストールが自分のようなへっぽこにはハードルが高い。winは結構さくっと入れられるのだが、Macだと大変、、、 最近Homebrewで簡単に入るらしいが自分のパッケージ管理はMacPortsなので移行しないとこの恩恵には預かれない。 自力でbuildにチャレンジする次第である。 ここにあるとおりなんだけどこれではctestでエラーが連発する。 で、結局 としたところ、ctestが全部成功。 一年ぶりにバージョンアップしました。

RDKitでsim matrix

RDKitは自分のお気に入りのツールです。 Pybelも優れているのだが最初に触ったのがRDKitということでよく使っています。 SDFから分子を読んで類似性でマップを作る場合 みたいな感じでしょうか。 テキストにタニモト係数0.7以上の化合物ペアが出るのでcytoscapeで見ると ネットワークが見えるかと思います。結構このビジュアル方法私は好きです。