Topic Detection

  Machine Learning

Topic Detectionは、複数の文章をいくつかのトピックに分類し、各トピックをキーワードで表現してくれる機能です。オープンソースの機械学習ツールKNIMEと連携しています。現在のところ、英語のみが対象です。日本語を分析したい場合は、一旦英語に翻訳してから実行してください。

処理の実行

指定トピック数/指定ワード数として、8トピック/4ワード、12トピック/6ワード、16トピック/8ワードの3種類が用意されています。

シートにデータを展開し、上記いずれかのTopic Detectionを起動、入力1に分析したい列を指定、New/Editでストップワードを登録して保存、保存した辞書を指定しRunを押して実行します。

実行結果

処理が終わると、各レコードのReserve1列にトピック番号、Reserve2列にキーワードが貼り付きます。下の例は8Topics/4wordsです。

出力ファイル

同時に、統計情報を持ったファイルも出力されます。例えば、トピック番号とキーワードをまとめたシートなどが含まれています。

アルゴリズム

Topic Extractor (Parallel LDA)