Chem Expand Bit

2022年9月7日 Quark Apps_Addin

最終更新日 2023年3月10日 by Quark Staff

Chem Expand Bitは、SMILES等の化学構造データから、フィンガープリントを使ってビット表現へ変換し、さらに機械学習へ渡すためにテーブルカラムへ展開します。これにより、構造データをもとに、ランダムフォレストを使った物性予測や、クラスタリングによる教師なしでの構造分類が可能になります。

Contents

環境設定

※既に環境設定がお済みの場合は、読み飛ばして下さい。

Chemシリーズアプリをお使いいただくには、環境設定が必要です。KNIMEを起動し、追加のExtensionをインストールします。File>Install KNIME Extensionsをクリックします。

chemiで検索し、「KNIME Base Chemistry Types & Nodes」と「KNIME-CDK」を選択してインストールします。

次にrdkitで検索し、「RDKit Nodes Feature」を選択してインストールします。

次に、アプリをインストールします。Get AppsからChem Expand Bitをダウンロードし、解凍してからインストールして下さい。Quark Appsタブ右端のMy Appsに登録されます。

検索対象とするデータをロードします。構造データとしてSMILESを含んでいる必要があります。

Chem Expand Bitを起動します。

Structure Columnに構造データの列を指定し、Structure Typeでそのデータ型を選択します。そして所望のFingerPrint Type（デフォルトはPubchem）を選択し、準備ができたらRunします。

処理が完了すると、bitvector列が追加されます（下図赤枠）。このbitvector列が、機械学習へ渡したときの説明変数になります。

例えば構造類似性で化合物を分類するには、上記bitvectorをもとにClusteringを実行します。その場合、不要な量的データは削除してから実行して下さい。

また、例えば構造類似性をもとに化合物の物性予測を行うには、上記bitvectorをもとにRandom Forestを実行します。その場合、bitvector列に加え、目的変数となる列（この例では溶解度の列）を残し、他の列は削除してから実行して下さい。