[sqlalchemy] building query using list.

SQLAlchemy is the Python SQL toolkit and Object Relational Mapper that gives application developers the full power and flexibility of SQL. This is very powerful tool to handle databases. I build o/r mapper for some databases to build QSAR models.(can not show code…) I want to build query using list, and asked google how toContinue reading “[sqlalchemy] building query using list.”

Advertisement

build QSAR model using RDKit

I’m interested in deep learning. Some days ago, I read following paper. Prediction of New Bioactive Molecules using a Bayesian Belief Network The author shows Bayesian belief network for classification (BBNC) method is a useful addition to the computational chemist’s toolbox. So, Today I tried to write script that build qsar models. At first, calculateContinue reading “build QSAR model using RDKit”

pharmacophore alignment using RDKit

One of the my favorite paper is “SAR NEWS 19”. link here I wrote some script for p4core align and uploaded to my repository . get_p4core.py makes pharmacophore object from input file and dump it. phcoresearchmodule.py aligns input sdf to pharmacophore from get_p4core.py. But I must improve this script ASAP. Basic usage… To Get Pharmacophore.Continue reading “pharmacophore alignment using RDKit”

Fraction of CSP3

先週末はあるソフトのユーザー会に参加してきました。 参加者、プレゼンターの皆様おつかれさまでした。 木曜のセッション、金曜のセッションともに勉強させてもらいました。 CI( continuous integration)の考え方は自分にとっては新しい考え方だったし興味深いなあと思いました。勉強しよー。  また、生産性の考え方、エンドユーザーのスキルアップ、教育など多くの議論が活発でしたし、いつも得るものが多くていいですね。色々と考えさせられました。ポスターでは皆さん話しかけて下さりありがたい限りです。  さて懇親会でfSP3の話になってRDKITで行けまっせっていう流れになったのでちょっとコードを乗っけてみます。RDKitのDesicriptorクラスからいけるのでこんな感じでよいかと。 単発の場合、、、 SDFを扱う場合は SDMolSupplierを使ってもいいのですが 今回はpandasを使ってみます。 sdfは適当にpubchemからとってきました。 lambdaとapply組み合わせると ループいらないのでコードがすっきりしますね。

Estimation of Synthetic Accessibility Score

RDKit 2013_09 was released at 2013 11 02. Lot’s of features were implemented. :-) I’m interested in “Ertl and Schuffenhauer’s Synthetic Accessibility score”. The script was “rdkit / Contrib / SA_Score / ” folder. At first, I got some data from ChEMBL. compnd from chembl These molecules were downloaded as sdf. Then, I changed theContinue reading “Estimation of Synthetic Accessibility Score”

rdkit-ver.up

先日RDKit Q3 2013がリリースされました。 複数の機能追加とbug fixが実施されており大変頼もしいです。 windows用にはbinaryファイルの配布と今回はjava-wrapperも同時に配布となっており また一段といい感じに仕上がっているように思います。  まずは手元のMBAにインストールしています。 MACの場合、rdkitはHomebrew用のformulaが配布されています。 こちら。 まだQ2のものですが、urlとcheck samをかえればいい感じになります。 ということで書き換えてみます。 書き換えたもの urlの部分と、sha1を変えました。 でインストールをする際はもともとのバージョンが入っているとしたら brew uninstall rdkitで一回Q2をアンインストールしてから 上記のrdkit.rbを適当なフォルダに入れといて(tapでいいのかもしれないけどまだ動作把握してない) としてしばし待つと 下記のように醸造が終わります。 動作確認ですが ということで新しいバージョンになりました。 夜落ち着いたら新しい機能をチェックしようと思います。

pandas and vincent

Matplotlib is a python 2D plotting library which produces publication quality figures in a variety of hardcopy formats and interactive environments across platforms. But, sometime it is difficult to build maplotlib. So, I used vincent instead of matplotlib. It is easy to build vincent, because you can use pip or easy_install. Also It can download fromContinue reading “pandas and vincent”

Visualize Crippen Atom Contribution

Yesterday, I wrote that I was interested in “calcAtomGaussians”. So, I wrote simple script to visualize molecular image with atomic contribution about logP. In this script, query “name” is converted to smiles strings using chemspipy module, at first. Then the smiles are converted to mol-object of RDKit. **** The chemspipy require a security token; toContinue reading “Visualize Crippen Atom Contribution”

Visualize Molecular Similarity

Somedays ago, I found nice work about visualization of molecular similarity. Molecular similarity is used to compare molecular structures. For example, tanimoto coefficient and so on. But, for Chemists, scores are difficult to understand occasionally. Gregory A Landrum et al. reported very nice work to represent molecular similarity. They used RDKit, Scikit-larn and matplotlib toContinue reading “Visualize Molecular Similarity”

CREATE PAIR TABLE

SQLite is a software library that implements a self-contained, serverless,zero-configuration, transactional SQL database engine. And easy to use via Python API. I think Molecular Matched Pairs(MMPs) are very attractive method . But, difficult to use in my project. For Education? Knowledge Management ? Design New Molecule ? If you interested in MMP, you could find lots of references. ex)Continue reading “CREATE PAIR TABLE”

Get weather forecast

I found nice tool for python . It’s name “weatherpy”. A python wrapper for the Yahoo weather API. It’s easy to install. Give weatherpy a user agent and a WOEID and weatherpy will make accessing elements of the RSS feed simple. WOEID (Where On Earth Identifiers) can be found here. http://woeid.rosselliot.co.nz/ For example, I searchedContinue reading “Get weather forecast”

RDKit & Scikitlearn

Let’s try to build model using RDKit and Scikit-learn . Scikit-learn is simple and efficient tools for data mining and data analysis. I referred this page. here At first, build model using molecular descriptors . Here we go. OK! Next, build model using molecular fingerprint . Let’s try ! RF method using molecular descriptors showedContinue reading “RDKit & Scikitlearn”

CHEMBL_MMP

またしてもMMPねた RDKit のMMPモジュールを使ってCHEMBLのデータを全部くっつけるバージョン。 ただし今回はkinase_sarfariのみ。 準備として https://www.ebi.ac.uk/chembl/sarfari/kinasesarfari ここからデータを持ってきます。 ks_compound.txt ks_bioactivity.txt でディレクトリにrfrag.py, index.pyと上のデータを入れます。 くっつけるのは、、 chembl_mmp.pyとして こんな感じ ターゲットごとのMMPができます。

RECAPとか

RDKitのRECAPルールを使うと 分子をある一定の結合で切断できます。 ライブラリーにアプライして得られる頻度を見ると これよく使ってるよね。みたいなのが分かるかもと思います。 こちらのブログを拝見させていただき、pytagcloudなるものを知りました。 使うのにSDFとかpygamesとか入れないとなんなくて面倒でした。 が一応環境ができたのでRECAPで分子を切断した後 HTMLに出力するようなスクリプトを書いてみました。 ちなみにほとんどは、githubにあがっているpytagcloudのunittestのコードを ベースにしています。 で実行します。 htmlのテンプレートは https://github.com/atizo/PyTagCloud/tree/master/pytagcloud/test/web のtemplate.htmlです。 で、 カレントディレクトリにwebというフォルダを作ってそこに入れておきます。 outというフォルダにtagcloudなsmilesが作成されます。多分。 分子数が多いとRECAPで結構時間を食うし、fragmentは1っこでもカウントしてるので 適当な数以上になったらタグにするとかしないと重たい感じ。 リンクになってるからマウスオーバーしたら親化合物が見えるとか、 smi2jpgみたいになると素敵ですが、、、ちょっと技術力不足、、、 JSのらいぶらりだけどTagCloudjsというの今日教えてもらったが便利そう。

雑記

これ早いらしいです。 いろんなページで見るのですがどうなんだろうって、興味はあったけど 手を出していませんでした。 が、どうもインストールはターボール落としておしまいだそうで。 ちょっとやってみたくなったので早速、、 速度だいぶ違いました。 少しいじってみたくなりました。

Lillyのフィルタ

J.Med.Chem. 2012, 55, 9763-9772 Lillyのこれまで積み重ねてきたフィルタに関しての報告です。 ソースコードがGitHubにあがっているので、ちょっと使ってみました。 でインストールはよろしくやってくれます。簡単です。 続いてデータセットの準備をします。CHEMBLからDPP4阻害剤のデータを取ってきました。 入力に使うフォーマットはsmiles tab idにしないとだめなので 今度はPANDASで加工します。 で確認します。 ということでファイルができました。 実際に計算してみましょう 結果はsmiles / id / demerit / detailsのような出力です。 17クラスからなる275のルールから構成されるフィルターで バイオレーションによってDemeritのスレッシュフォルドが決まります。 デフォルトは100でリラックス(ゆるめ)で160をカットオフにしています。 テスト用のデータが4万件くらいでしたが、手元のMBAで数十秒でした。 プロジェクトが進んでからのアプライは???ですが、 市販のセットやHTS用のセットに一度当てるのは面白そうですね。