Alvascience社Software Suite: alvaMolecule 2.0を使った分子セットのキュレーション(後編)

2023年5月9日火曜日

【alvaMolecule】

t f B! P L


 


前編、中編では構造チェックと標準化というalvaMoleculeのメイン機能を見てきましたが、この後編では、分子記述子と物理化学的特性の計算、スキャフォールド分析、重複分析、グラフ表示、データコンバージョンとエクスポートなど、他の様々な機能について見ていくことにします。

【分子記述子と物理化学的特性の計算】

alvaMoleculeはデータセットのキュレーションだけではなく、分子記述子計算ソフトalvaDescに実装されている数多くの分子記述子と物理化学的特性の中から選ばれた、代表的な88個の記述子と特性をワンクリックで計算させることができます。[31]

[31]

 計算された特性値を含む全てのデータをExcelのワークブック形式でエクスポートすることもできますので、その後の分析などで簡単に使用することができます。

 

[Tools > Calculate properties]から計算される特性

-        構造的記述子(Constitutional indices

Ø  分子量や原子や結合の数など31

-        リング記述子(Ring descriptors

Ø  含まれるリングの数やサーキットの数など15

-        分子の物理化学的特性(Molecular properties

Ø  トポロジカル極表面積(TPSA)、オクタノール/水分配係数(LogP)などモデルベースの物理化学特性を含む15

-        ドラッグライク指標(Drug-like indices

Ø  リピンスキーのルールオブファイブなど27

尚、88個の特性値については、[Help > alvaMolecule Help]からalvaMoleculeのユーザーマニュアルを開くと、5.6 Propertiesに詳細の記述があります。

 

【グラフ表示】

Calculate propertiesで分子記述子や物理化学特性が計算されると[Charts]のメニューが使用できるようになり、計算された値がどのような分布になっているかを、alvaMolecule上でヒストグラム、棒グラフ、散布図の形式により確認することができます。[32]

尚、入力データに数値のフィールドが含まれている場合には、Calculate propertiesを実行させなくてもそのデータをグラフ表示させることができます。

[32]

 では、まずヒストグラムを表示させてみます。[図33]

[33]

ヒストグラムに使われるデータはデフォルトでは最初のMWとなっていますが、右側にあるメニューから表示させたい記述子などを任意に選択することができます。

また、記述子選択リストの上に(filter)とグレーで表示されている窓に、検索したい文字を入れるとヒットした結果が表示されますので、その中から選択するということもできます。[34]

[34]

 

棒グラフ(Bar plot)では個々の分子がX軸方向に順番に表示されますので、値がどのように分布しているかを視覚的に把握することができます。[35]

[35]

 

散布図はX軸Y軸の2次元表示がデフォルトですが、Z軸を指定することにより3次元表示とすることもできます。Z軸はカラーコードで表示されます。[36]

[36]

 

グラフ表示では、alvaDescと同様に、グラフ上でマウスオーバーすることによりその分子の情報を表示したり [37]、グラフ上で分子を選択してフィルターができます。[38] 分子をフィルターした状態で[Save as...]から保存することにより、選択した分子だけを出力することもできます。

[37]

[38]

 また、それぞれのグラフは、画像としてコピー、JPEG/BMP/PNGのフォーマットで出力、グラフデータとして保存することもできます。

 

それでは、ここからalvaMolecule 2.0から追加された2つの強力なツール、重複分析とスキャフォールド分析について見ていくことにします。

【重複分析】

[Tools > Duplicates]から開くメニューの[Duplicates analysis...]を選択すると、”Duplicates detection options”のウィンドウが開きます。[39]

[39]

 alvaMolecule 2.0の重複分析では、2つのアプローチにより重複した分子を検出します。1つ目が構造に着目した重複で、2つ目が分子ワークシートのデータフィールドに着目した重複となります。重複検出オプションウィンドウでは、それぞれ”Molecule””Column”のラジオボタンで選択します。

構造から重複を検出する”Molecule”には、更に4つのオプションがあり、チェックボックスにチェックを入れることにより選択することができます。

1.      立体化学の違いを無視した分析(Ignore stereochemistry

Ø  同じ構造を持つが立体化学が違う分子を重複とみなす

2.      同位体の違いを無視した分析(Ignore isotopic information

Ø  同じ構造を持つが違う同位体を持つ分子を重複とみなす

3.      水素原子の違いを無視した分析(Ignore hydrogen atoms

Ø  同じ構造を持つが水素原子の数が違っている分子を重複とみなす

4.      形式電荷の違いを無視した分析(Ignore formal charges

Ø  同じ構造を持つが形式電荷が違っている分子を重複とみなす

尚、現バージョンでは、配座異性体などの3D構造には対応していません。

重複検出オプションウィンドウで”Column”を選択すると、分子ワークシートのデータフィールドの中からどのフィールドを使って重複を検出するかを選択することができます。データフィールドは、この例のCASRNのように入力した項目でも、MWなどの計算された記述子でもかまいません。[40]

[40]

 前置きが長くなりましたが、重複分析を実行してみます。まずは、”Molecule”で立体化学などを無視するオプションは選択せず実行します。その結果、重複した分子は検出されませんでした。[41]

[41]

次に、立体化学と同位体の違いを無視することにして実行してみました。その結果、赤線で囲んだ場所に表示されているように、5組、計12個の分子の重複が検出されました。[42]

[42]

 同じ色で塗られているものが重複分子の組合せとなっています。下の緑色の線で囲んだ部分に”All duplicates (12 molecules)”と表示があり、その左右に再生・早送りのようなマークがありますが、これを押すと重複のグループ毎に表示させることができます。[43]

[43]

この例では、グループ34つの分子が含まれていることを示しています。この4つの分子は同位体と立体化学の違いを除くと構造が同一ということになります。それぞれSMILESで表示してみるとこのようになります。

No.318: [2H]C([2H])([2H])[C@H](N)Cc1ccccc1.[2H]C([2H])([2H])[C@H](N)Cc1ccccc1

No.322: CC(N)CC1=CC=CC=C1.CC(N)CC1=CC=CC=C1

No.325: C[C@H](N)CC1=CC=CC=C1.C[C@H](N)CC1=CC=CC=C1

No.326: C[C@@H](N)CC1=CC=CC=C1.C[C@@H](N)CC1=CC=CC=C1

重複した分子が表示された状態でファイルメニューから保存を行うことにより、重複分子だけを保存することもできます。

また、[Tools > Duplicates]のメニューを開けると、”Show duplicates”にチェックマークがついていますが、ここをクリックしてチェックを外すと重複分析以前の状態に戻ります。

その下にある”Manage duplicates...”は、重複分析を走らせる前にはグレーアウトされていましたが、今は選択可能になっています。[44]

[44]

 [Manage duplicates]をクリックすると"Manage duplicates"というウィンドウが表示されます。[45] この重複したものを管理するとは、重複が検出された分子のグループについて、分子ワークシートに並ぶ特性値を1つ選択した上で、その値が同一の場合に最初の分子だけ残し他を自動的に消去するという機能です。

[45]

 今回は立体化学や同位体の違いを無視することで重複した分子が検出された訳ですが、異なる複数のデータセットをマージして分子データセットを作成するような場合に、重複している分子を見つけ出した上で、1つだけを残して他を自動的に削除してくれるというのは便利な機能と思われます。

[Edit > Delete selected]から選択した分子を手動で削除していくこともできますので、人の目で確認しながら重複を排除していくこともできます。

但し、重複分析の結果は表示をオフにすれば元の状態に戻りますが、一度分子を削除すると元には戻りませんので注意が必要です。

 

【スキャフォールド分析】

Bemis-Murckoによると、分子はリングシステム、リンカー、サイドチェーンとフレームワーク(スキャフォールド)に分解され、スキャフォールドとはリングシステムとリンカーの連合体として定義されています。

[Tools > Scaffold analysis]から、ワンクリックで分子データセットに含まれるBemis-Murckoフレームワーク(スキャフォールド)を検出・表示させることができます。[46]

[46]

画面の左側がスキャフォールド分析の結果検出されたスキャフォールドとなります。赤線で囲んだ所にサマリー情報がありますが、この場合、49個のスキャフォールドが検出され、212個の分子はスキャフォールドを持っていないという結果を示しています。その下に検出されたスキャフォールドがScaffold 1から順に並んで表示されています。その順番は、検出された特定のスキャフォールドを持つ分子の数が多いものから降順となり、一番下がNo scaffoldとなっています。また、各スキャフォールド画像の上にはそのスキャフォールドを持つ分子の数が示されており、Scaffold 150個の分子が持っていることがわかります。

画面の右側の分子グリッド(又は分子ワークシート)では、左側のスキャフォールド画面で選択されたスキャフォールド(この場合はScaffold 1)を持つ分子だけが表示されているため、左肩の番号がとびとびになっています。

スキャフォールドの選択=分子をスキャフォールドでフィルターすることとなりますが、その際、下の青線で囲まれているように複数のスキャフォールドを選択することもできます。[47]

[47]

 また、スキャフォールド分析の結果全体を書き出す機能はありませんが、個々のスキャフォールドについてBMPSMILESとしてコピーすることが可能です。[48]

[48]

 スキャフォールド分析は、直感的にわかりやすく分子をグルーピングできることもあり、探索型データ解析(EDA)で有用なツールとなっているようです。

 

【データコンバージョンとエクスポート】

最後にalvaMoleculeのデータ保存について見ていきます。

alvaMoleculeは【データセットの入力と表示】のところで触れたように、いろいろなタイプのフォーマットでデータ入力をすることができます。一方、データを書き出す場合は、SMILES.smi)、SDF.sdf)、若しくは、SMILESにヘッダーがついたテキストファイル(.txt)の3種類のフォーマットにコンバージョンして保存することになります。

データの保存は、[File > Save as...]から行います。スタンダダイザーを適用した状態でデータ保存を行う場合は、適用後の分子が保存されます。また、重複分析の結果を表示させている状態や、分子ワークシート上でフィルターをかけた状態など、一部の分子が選択されている場合には、フィルターされている分子のみを保存するかを聞いてきますので、”Save only filtered”を押下すると選択されている分子のみが保存されます。[49]

[49]

 また、[File > Export as...]からalvaMoleculeの分子ワークシートで表示される内容を、2次元描画像付きでエクセル(.xsls)ファイルとしてエクスポートすることもできます。

尚、分子ワークシートに表示されていないSMILES情報はエクスポートされませんので、SMILES情報が必要な場合は [Save as...]から出力されたSMILESファイルと組合わせて使う必要があります。[50]

[50]

 

以上、これまで3回に渡ってalvaMoleculeの機能を見てきました。ケモインフォマティクスのデータ解析に用いる分子セットのキュレーションを行うツールとして、エラーや構造的特徴のチェック、修正や標準化という基本機能に、バージョン2からは重複した分子の検出や自動削除の機能が加わり、より強力になっています。更に、分子記述子の計算、グラフ表示やスキャフォールドの検出など、分子セットの特徴を予備的に俯瞰できる機能も装備されています。また、主な機能以外にも、SMILESで入力しキュレーションを行った分子セットをチェッカーの結果や記述子などの情報を含めてSDFファイルにコンバージョンする機能や、分子を部分構造で検索する機能など、様々な場面で使えそうな機能がシンプルなGUIに盛り込まれているツールであることがわかりました。

⦅後編終わり⦆

 

code-prettify

このブログを検索

ページビューの合計

人気の投稿

QooQ