Can machine learn important feature from SMILES?

Today I found challenging article in arxiv.
It describes about SMILES2Vec. https://arxiv.org/pdf/1712.02034.pdf
You know word2vec is very attractive and major application for ML area and SMILES2Vec has same concept.
It converts smiles to vector and learn which character is important. The author use “black box” models for building model. I am not sure about “black box” model but I think it likes leave one out. The method masks some features, builds model and finds important features.

To use the method, SMILES2Vec can find important characters in the given smiles.
They found CNN-GRU model gives best result for solubility prediction. My question is … Why convolution of SMILES work fine???
My opinion is that solubility or logP depends on the presence or absence of substituents such as hydroxyl or amino groups, they do not strongly depend on the position some case. So I think the method is interesting but difficult to predict biological affinity.

SMILES strings is major input format for deep learning area. Also I often use SMILES. 😉 But I want to find another format for DL.

ref for black box model
https://arxiv.org/pdf/1602.07043.pdf

Advertisements

創薬化学者の仕事について #souyakuAC2017

こんにちは。情弱のiwatobipenといいます。当方とある企業で創薬化学者のお仕事をさせていただいています。

今日は悪ノリで創薬 Advent Calendar 2017にエントリーしたので、創薬化学者の仕事ってどんなもんかなというのを私の視点で書いてみようかなって思っています。

ちなみに会社によっても変わる部分です(まあ僕の会社の中の人でもこんなん違うだろ!って意見もあると思います。それは全然否定しません。)。まあ、ただの読み物として捉えて下さい。
なお、この記事は創薬 Advent Calendar 2017 (#souyakuAC2017) の5日目の記事です。

創薬化学者は薬になりうる化合物を設計して合成することがお仕事です。合成は自分がするとは限りません。従いまして、創薬化学者と有機合成化学者は異なります。どっちがどうだとかそう言った議論ではなく、目的が違うんですね。さて、薬に求められることって色々あります。
– 薬効(これがなければ病に困っている患者様を助けられないですね。)
– 毒性がないこと(どんなに強くても副作用がそれを上回ってしまえば毒になってしまいます。)
– 飲みやすさ(錠剤なら小さいとか、経口剤の方が飲みやすいとか、溶けやすいかとか、、、注射剤の方が好ましいケースももちろんあります。)
– コスト(医療経済、薬価は議論がありますが、高いより安い方がもちろん好ましいですね。)
– 作った化合物の権利=特許が取れないとダメですから知財の知識も求められます。
– 製造できるプロセスが必要です。目的の化合物を効率的に作りきるプロセスケミストリーの知識、スキルも必要でしょう。
もう書いてるだけ目が回ります。全てのスペシャリストもいますが得意な場所を伸ばしてあるパートのスペシャリストの道に進む人もいます。例えば、どんな難しい化合物であっても商用プロセスに仕上げてしまう合成のスペシャリストとか。第六感のようなセンスの塊でなんかわかんないけど、あの人が作る化合物はすごい。みたいな。いろんなタイプの研究者人います。ですが、目的は薬を世に出し、苦しんでいる方々を救うことです!

チームワークも大切です。薬理学研究者、薬物動態の研究者、毒性学の研究者、いろんな専門の人と議論して、構造に落とし込んで次の一手を考える必要があります。
、、、ここに置換基入れると活性上がるよなぁ、と構造活性相関でわかっていても、そこに入れると脂溶性が上がってしまい代謝安定性が悪化したり、毒性が出たりしてしまう。んーここには入れられぬ、、、のようなジレンマとの戦いの日々もあります。
全て100点のもが取れれば最高ですがそんなことは、ほとんどありません。リスクandベネフィットを考慮してどうやったら先に進められるかという戦略を立てることが重要です。この文献は仕事の同僚から教えてもらったのですがとても面白いと思います。
Drug Discovery: A Modern Decathlon創薬は総合競技です。
あ、ちなみに私はもうこの仕事してだいぶたちますけど、正直成功した経験はありません。退職するまで一つくらいは世に薬出す仕事に貢献したいと思っていますけどね。
やりがいはあるけど、そうそう成功するわけでもない職種だと思います。情熱があれば薬が作れるかというとそんなことは100%ないです。情熱は必要ですが、サイエンスに基づいた戦略がないとエネルギーの浪費です。私の尊敬する大先輩は、ある会議で根性論的な議論になった際にボソッと”薬は情熱で作るんじゃないよサイエンスで作るんだよ”って呟いていました。忘れられません。

ここから最近の話題です
メガファーマがサイトをクローズすることが増えましたね。これに合わせてCROが増えてきているように思います。CROとはContract Research Organizationの略で、色々と創薬に関する業務を受託する企業のことです。メガファーマでの経験豊富な人材、ファシリティがあります。問題なんでも解決しますよ。という提案です。探索用のライブラリ合成、プロセス検討、スケールアップ、薬理評価などなどなんでもできます。こういった企業は価格もそれなりにします。一方でコスパを考えれば人件費の安い国にいけば良いわけで、比較的低コストで合成の人員を依頼できるCROもあります。
極論ですが、創薬化学者の仕事は委託でまかなえる部分が増えているわけです。実際バーチャルファーマと言って、考えるヘッドの数人だけで後の実務は全部CROに委託して創薬をやるといった企業もあります。これは当事者にしてみれば結構シビアな問題です。会社で給料をもらうということは、自分に投資してもらうってことと同じなので、私は投資する価値がありますよって示さないとならないと思うんです。つまりそういったメガファーマ出身の猛者がうようよいるところで、私に投資した方がいいですって自信持って言えるのかってことだと思うのです。
じゃあどうすんのさってのは正直私も答えを持っていません。ただ、何か一つの専門性だけでやってこうと思うとそれこそ突き抜けたレベルに行かないとダメなのかなって。自分はちょっと脇道に外れてT shapeな人になりたいなって考えています。最近はTじゃなくてπという話もあります。

つらつら書いてしまいましたが、最先端の科学技術と自分の合成スキルを組み合わせてデザインしたものを形にできるという仕事はとってもやりがいがあります 私にとっては。
もう一回書きますが、これはあくまで私見なのでいやいや違うでしょ、とかいろんな意見があると思います。ご意見、あればお受けいたします。

最後になりますが駄文に最後までお付き合い頂いたことに感謝意を述べておしまいにしたいと思います。
最後まで読んでいただきありがとうございました。

次はチャンスがあればもっと技術よりの話題を書こうかな

Data sharing for drug development

Many kinds of predictive models are used not only prediction of target activity but also prediction of safety.
It often needs lots of data to build robust predictive model. It’s problematic.
The article describes the challenge to solve the problem for non-clinical safety area.

eTOX project, which started in 2010. The project over came following problems!

“””
The first challenge to be overcome by the eTOX consortium
was the apprehension of pharmaceutical companies
about sharing sensitive proprietary preclinical data. This
required a combination of legal (consortium agreement),
technical (database installed behind companies’ firewalls
and models implemented within self-contained virtual
machines), organizational (the ‘honest broker’ concept),
psychological (trust gained through collaboration), political
(data-sharing pressure, such as the FAIR (Findability,
Accessibility, Interoperability and Reusability) principles)
and social (snowball effect) solutions

“””
It against the traditional Japanese company, it will take long long time and will be required many human resources I think…. ( how about reader’s opinion ???)
And also they challenged standardization in the data that was provided from pharmaceutical companies. I am interested in how to do that. Data standardization might affect accuracy of the model.
The project now entered into its sustainability phase.

Recently collaboration research is very common strategy for pharmaceutical area. An appropriate structure of collaboration, data normalization and speed are key factor for success.

Visit Berlin

This week I visited Berlin in business travel. I could have useful discussion and enjoy my travel.
It was pleasure for me to discuss lots of people and learn about new technology. On the other hand I felt my inability in English. It was very difficult to discuss with foreign peoples in very limited times. Hmm… ;-(

BTW, In my free time, I visited the East Side Gallery. This site is The East Side Gallery is international memorial for freedom. I saw lots of art. I was very impressed by the art.


Also I enjoyed German traditional food. 😉
Currywurst

Eisbein

And huge potato salad!!!!

That became a good experience. I need learn more and more. Keep learning!!

Beyond the Ro5!

Recently, I was interested in an article of JMC.
http://pubs.acs.org/doi/10.1021/acs.jmedchem.7b00717

The author analyzed in-house compound selection and found rule that Easy-to-understand scouring function AB-MPS.

AB-MPS is defined by following equation.
AB-MPS = Abs( cLogP – 3 ) + NAR + NRB
Where NAR means number of aromatic rings and NRB means number of rotatable bounds.
They found that AB-MPS of beyond the Ro5 compounds shows good correlation with Oral bioavailability (F) and some kinds of ADMET parameters.
It is not true everywhere but I think the parameter is good indicator for medicinal chemist because easy to understand and based on in-house dataset ( for author’s company ). We can make more complex predictive model by using machine learning method, but the method is difficult to understand why these compounds are good.
In house dataset is key factor of its strengths.
I am still thinking about how to collect in-house data and how to use these dataset more efficiently.

Camp! Asagiri jamboree auto camping ground

当たったらいいねって冗談半分で出したハガキにめでたく当選して、初めてキャンプに行って来ました。道具なんて持ってないですから0から買い揃えましたよ。
テント、タープ、テーブル、食器チョイチョイ、シュラフ、などなど。

初めてのキャンプということで天候が不安でしたが、とても良い天気で風もなく楽しむことができました。私はひどい日焼けになってしまい鼻の頭が真っ赤っかになりました、、、今回はSwen、colemanさんの初心者向け企画だったので、クッカー、食材などは提供していただけるという楽々プラン。

現地でまずは説明書とにらめっこしながらタープとテントを張って、、、
お昼食べて休憩後色々、遊んだり、火起こしやったりとアウトドアを楽しみ、

夕方からはダッチオーブンを使ってポトフを作り、ステーキ焼いて、米炊いて。。
富士山も綺麗にくっきりと見えるし、素敵な感じですね。
今回は現地で食材を提供していただいたのでとても楽チンでした。スタッフの皆様に感謝の限りです。


夜は参加している皆さんで焚き火を囲んで、マシュマロ焼いて食べたりビール飲んだりダンスをしたりと。日常からちょっと離れた雰囲気で家族もみんなとても楽しんでいました。

夜が想定以上に寒く、ちょっと山をなめていたことを反省しつつ、、、次の朝も食材は提供していただきホットサンドとコンスープを食す。寒かったので温かいスープはほんとありがたいですね。

二日目のイベントは火起こし大会。マグネシウムファイヤースターターを使って薪に誰が一番早く火をつけるかという企画です。前日私は散々やったけど全然火がつかなくて当日は応援担当w。結果相方がバッチリ結果を出して2位入賞。

景品ででコールマンのタープをいただきました。(ง°`ロ°)งよっしゃぁぁ‼
みんな楽しんで私も楽しかったのでまた行きたいなと思う今日この頃。

次回までに、、、クッカー欲しい。防寒対策ちゃんと考えるべし。ランタン一個じゃ足らん。出費が増えるばかりだ、、、、
企画、運営をしてくださったスタッフ、関係者の皆様に感謝し日曜の夜が終わるのでした。

LEGO & SCRACH

子供の夏休みに合わせて地元でものづくり体験的なイベントがありました。パン屋さんだったり、銀行だったり、いろんな体験ができます。その中でプログラミングで機械の動作原理を知ろうというセッションがあったので応募したら当選しました。
ということで、子供に体験させてみました。
今回の講座ではLEGO Webdoというレゴブロックを使いました。これはセンサーやモーターがついておりそれらはPC上でコーディングすることでいろんな動作制御が可能です。言語はScrachなので子供でもわかりやすい。
http://www.rika.com/lego/wedo2_1
今回はコマとそれを回すスピナーを作って動かしてみようというものでした。
まずはレゴでコマとスピナーを作ります。
スピナーができてきた↓

コマを作ってそのあとはPCでコード作ります。コードといってもブロックを組み合わせるパターンですので直感的です。
今回のコードは
モーター回す=>音を鳴らす=>スピナーをコマから離したら=>モーター止める。
です。
↓完成して実行するところ

コード書いてもの作って動くまで体験できるって良いですね。
僕のこともの頃はこんなのなかったな。電子工作ではんだこて使って、お風呂の水位センサーとか作ってなった時嬉しかった。もの作って動くと感動するよなぁ。
LEGO奥が深いわ。