Chem Expand Bit

  Quark Apps_Addin

最終更新日 2023年3月10日 by yotuki

Chem Expand Bitは、SMILES等の化学構造データから、フィンガープリントを使ってビット表現へ変換し、さらに機械学習へ渡すためにテーブルカラムへ展開します。これにより、構造データをもとに、ランダムフォレストを使った物性予測や、クラスタリングによる教師なしでの構造分類が可能になります。

環境設定

※既に環境設定がお済みの場合は、読み飛ばして下さい。

Chemシリーズアプリをお使いいただくには、環境設定が必要です。KNIMEを起動し、追加のExtensionをインストールします。File>Install KNIME Extensionsをクリックします。

chemiで検索し、「KNIME Base Chemistry Types & Nodes」と「KNIME-CDK」を選択してインストールします。

次にrdkitで検索し、「RDKit Nodes Feature」を選択してインストールします。

インストール

次に、アプリをインストールします。Get AppsからChem Expand Bitをダウンロードし、解凍してからインストールして下さい。Quark Appsタブ右端のMy Appsに登録されます。

使い方

検索対象とするデータをロードします。構造データとしてSMILESを含んでいる必要があります。

Chem Expand Bitを起動します。

Structure Columnに構造データの列を指定し、Structure Typeでそのデータ型を選択します。そして所望のFingerPrint Type(デフォルトはPubchem)を選択し、準備ができたらRunします。

出力ファイル

処理が完了すると、bitvector列が追加されます(下図赤枠)。このbitvector列が、機械学習へ渡したときの説明変数になります。

機械学習における注意点

例えば構造類似性で化合物を分類するには、上記bitvectorをもとにClusteringを実行します。その場合、不要な量的データは削除してから実行して下さい。

また、例えば構造類似性をもとに化合物の物性予測を行うには、上記bitvectorをもとにRandom Forestを実行します。その場合、bitvector列に加え、目的変数となる列(この例では溶解度の列)を残し、他の列は削除してから実行して下さい。

アルゴリズム

Fingerprints