RDKitで一気にタニモト係数を計算する

最近知ったのですがRDKit分子のリストからタニモト係数を一気に求めるには BulkTanimotSimilarity関数を使うといいということでした。 今までは とか書いて順次タニモト係数を計算して適当にリストに入れこんだりしていましたが とするとindex 0 の分子とリストのタニモト係数の計算結果のリストを返してくれます。 コードがちょっと短くなります。 上の例だ自分自信のシミラリティも計算してしまうので とか書くと三角行列になるかと思います。 クラスタリングなんかに使えるかな。 距離にするなら1.0-タニモト係数の結果を使うとよさそうです。 補足 RDKitのMorgan法によるFingerPrintでは半径を指定するのでpipelinepilotのECFP4に相当するFPを得るためにはMorganFPでは2を引数に当てるようです。

Advertisement