前編、中編では構造チェックと標準化というalvaMoleculeのメイン機能を見てきましたが、この後編では、分子記述子と物理化学的特性の計算、スキャフォールド分析、重複分析、グラフ表示、データコンバージョンとエクスポートなど、他の様々な機能について見ていくことにします。
【分子記述子と物理化学的特性の計算】
alvaMoleculeはデータセットのキュレーションだけではなく、分子記述子計算ソフトalvaDescに実装されている数多くの分子記述子と物理化学的特性の中から選ばれた、代表的な88個の記述子と特性をワンクリックで計算させることができます。[図31]
[Tools
> Calculate properties]から計算される特性
-
構造的記述子(Constitutional indices)
Ø 分子量や原子や結合の数など31個
-
リング記述子(Ring descriptors)
Ø 含まれるリングの数やサーキットの数など15個
-
分子の物理化学的特性(Molecular properties)
Ø トポロジカル極表面積(TPSA)、オクタノール/水分配係数(LogP)などモデルベースの物理化学特性を含む15個
-
ドラッグライク指標(Drug-like indices)
Ø リピンスキーのルールオブファイブなど27個
尚、88個の特性値については、[Help > alvaMolecule Help]からalvaMoleculeのユーザーマニュアルを開くと、5.6 Propertiesに詳細の記述があります。
【グラフ表示】
Calculate propertiesで分子記述子や物理化学特性が計算されると[Charts]のメニューが使用できるようになり、計算された値がどのような分布になっているかを、alvaMolecule上でヒストグラム、棒グラフ、散布図の形式により確認することができます。[図32]
尚、入力データに数値のフィールドが含まれている場合には、Calculate propertiesを実行させなくてもそのデータをグラフ表示させることができます。
ヒストグラムに使われるデータはデフォルトでは最初のMWとなっていますが、右側にあるメニューから表示させたい記述子などを任意に選択することができます。
また、記述子選択リストの上に(filter)とグレーで表示されている窓に、検索したい文字を入れるとヒットした結果が表示されますので、その中から選択するということもできます。[図34]
棒グラフ(Bar
plot)では個々の分子がX軸方向に順番に表示されますので、値がどのように分布しているかを視覚的に把握することができます。[図35]
散布図はX軸Y軸の2次元表示がデフォルトですが、Z軸を指定することにより3次元表示とすることもできます。Z軸はカラーコードで表示されます。[図36]
グラフ表示では、alvaDescと同様に、グラフ上でマウスオーバーすることによりその分子の情報を表示したり [図37]、グラフ上で分子を選択してフィルターができます。[図38]
それでは、ここからalvaMolecule 2.0から追加された2つの強力なツール、重複分析とスキャフォールド分析について見ていくことにします。
【重複分析】
[Tools
> Duplicates]から開くメニューの[Duplicates analysis...]を選択すると、”Duplicates detection options”のウィンドウが開きます。[図39]
構造から重複を検出する”Molecule”には、更に4つのオプションがあり、チェックボックスにチェックを入れることにより選択することができます。
1.
立体化学の違いを無視した分析(Ignore
stereochemistry)
Ø 同じ構造を持つが立体化学が違う分子を重複とみなす
2.
同位体の違いを無視した分析(Ignore isotopic
information)
Ø 同じ構造を持つが違う同位体を持つ分子を重複とみなす
3.
水素原子の違いを無視した分析(Ignore hydrogen
atoms)
Ø 同じ構造を持つが水素原子の数が違っている分子を重複とみなす
4.
形式電荷の違いを無視した分析(Ignore formal
charges)
Ø 同じ構造を持つが形式電荷が違っている分子を重複とみなす
尚、現バージョンでは、配座異性体などの3D構造には対応していません。
重複検出オプションウィンドウで”Column”を選択すると、分子ワークシートのデータフィールドの中からどのフィールドを使って重複を検出するかを選択することができます。データフィールドは、この例のCASRNのように入力した項目でも、MWなどの計算された記述子でもかまいません。[図40]
次に、立体化学と同位体の違いを無視することにして実行してみました。その結果、赤線で囲んだ場所に表示されているように、5組、計12個の分子の重複が検出されました。[図42]
この例では、グループ3に4つの分子が含まれていることを示しています。この4つの分子は同位体と立体化学の違いを除くと構造が同一ということになります。それぞれSMILESで表示してみるとこのようになります。
No.318: [2H]C([2H])([2H])[C@H](N)Cc1ccccc1.[2H]C([2H])([2H])[C@H](N)Cc1ccccc1
No.322: CC(N)CC1=CC=CC=C1.CC(N)CC1=CC=CC=C1
No.325: C[C@H](N)CC1=CC=CC=C1.C[C@H](N)CC1=CC=CC=C1
No.326: C[C@@H](N)CC1=CC=CC=C1.C[C@@H](N)CC1=CC=CC=C1
重複した分子が表示された状態でファイルメニューから保存を行うことにより、重複分子だけを保存することもできます。
また、[Tools
> Duplicates]のメニューを開けると、”Show duplicates”にチェックマークがついていますが、ここをクリックしてチェックを外すと重複分析以前の状態に戻ります。
その下にある”Manage
duplicates...”は、重複分析を走らせる前にはグレーアウトされていましたが、今は選択可能になっています。[図44]
[Edit
> Delete selected]から選択した分子を手動で削除していくこともできますので、人の目で確認しながら重複を排除していくこともできます。
但し、重複分析の結果は表示をオフにすれば元の状態に戻りますが、一度分子を削除すると元には戻りませんので注意が必要です。
【スキャフォールド分析】
Bemis-Murckoによると、分子はリングシステム、リンカー、サイドチェーンとフレームワーク(スキャフォールド)に分解され、スキャフォールドとはリングシステムとリンカーの連合体として定義されています。
[Tools
> Scaffold analysis]から、ワンクリックで分子データセットに含まれるBemis-Murckoフレームワーク(スキャフォールド)を検出・表示させることができます。[図46]
画面の左側がスキャフォールド分析の結果検出されたスキャフォールドとなります。赤線で囲んだ所にサマリー情報がありますが、この場合、49個のスキャフォールドが検出され、212個の分子はスキャフォールドを持っていないという結果を示しています。その下に検出されたスキャフォールドがScaffold 1から順に並んで表示されています。その順番は、検出された特定のスキャフォールドを持つ分子の数が多いものから降順となり、一番下がNo scaffoldとなっています。また、各スキャフォールド画像の上にはそのスキャフォールドを持つ分子の数が示されており、Scaffold 1を50個の分子が持っていることがわかります。
画面の右側の分子グリッド(又は分子ワークシート)では、左側のスキャフォールド画面で選択されたスキャフォールド(この場合はScaffold 1)を持つ分子だけが表示されているため、左肩の番号がとびとびになっています。
スキャフォールドの選択=分子をスキャフォールドでフィルターすることとなりますが、その際、下の青線で囲まれているように複数のスキャフォールドを選択することもできます。[図47]
【データコンバージョンとエクスポート】
最後にalvaMoleculeのデータ保存について見ていきます。
alvaMoleculeは【データセットの入力と表示】のところで触れたように、いろいろなタイプのフォーマットでデータ入力をすることができます。一方、データを書き出す場合は、SMILES(.smi)、SDF(.sdf)、若しくは、SMILESにヘッダーがついたテキストファイル(.txt)の3種類のフォーマットにコンバージョンして保存することになります。
データの保存は、[File > Save as...]から行います。スタンダダイザーを適用した状態でデータ保存を行う場合は、適用後の分子が保存されます。また、重複分析の結果を表示させている状態や、分子ワークシート上でフィルターをかけた状態など、一部の分子が選択されている場合には、フィルターされている分子のみを保存するかを聞いてきますので、”Save only filtered”を押下すると選択されている分子のみが保存されます。[図49]
尚、分子ワークシートに表示されていないSMILES情報はエクスポートされませんので、SMILES情報が必要な場合は
[Save as...]から出力されたSMILESファイルと組合わせて使う必要があります。[図50]
⦅後編終わり⦆