最終更新日 2024年11月1日 by Quark Staff
Quark AppsWebをはじめるにあたり、まずはポイントのみご説明します。
Contents
全般の設定
システム>全般
JSONレスポンス:有効にすると、自然言語処理機能側からデータをダウンロードできます。ただし、URLを知る誰もが、インデックスにアクセスできる状態です。
ログインが必要:有効にすると、ユーザー以外は検索ができなくなります。
以前のドキュメントを削除:入力した日数経過後、インデックスが削除されます。-1で自動削除はされません。
すぐにクローリングしたいなら
1.ウェブクロール設定:クローラー>ウェブ>+新規作成
例:クォークサイト
URL:https://qrk.co.jp/
クロール対象とするURL:https://qrk.co.jp/.*
クロール対象から除外するURL:まずは空白で結構です。
最大アクセス数:200(対象サイトの総ページ数より大きい数を入力します)
スレッド数:1
間隔:1000ミリ秒(スレッド数1なら、1秒間に1ページ取得するという意味です)
2.ウェブクロールの実行:システム>スケジューラ>Default Crawler>今すぐ開始
3.ウェブクロールの状態確認:システム情報>ジョブログ>Default Crawler
「状態」がOKに変わったら、処理が完了しています。
クローリングのコツ
1.まずは荒く設定して、どういう内容が取得できるかを見極める(「URL」「クロール対象とするURL」を荒く)
2「URL」「クロール対象とするURL」を調整し、目的のページを効率よく捉える
3.「検索対象とするURL」「深さ」などを調整し、ノイズを減らす
ラベルを付けるには
クローラー>ラベル
対象とするパスに対してラベルを付けられます。ラベルをすぐに反映させたい場合は、システム>スケジューラ>Label Updaterにて「今すぐ開始」を実行。複数の条件に合致するページは、複数のラベルが付きます。
ラベルを使って、検索結果を絞り込むことができます。
検索結果の制御:キーマッチ
クローラー>キーマッチ
指定した検索語に対し、条件に一致したページを上位に表示できます。以下の例では、特定のサイトや、他のキーワードと組み合わせた結果を上位に表示します。
サイズ:10は表示する件数。ブースト値:100はスコア加算値。
(注意)キーマッチは、次回クローリング時に適用されます。すぐに反映したい場合は、対象となるインデックスを削除し、再度クローリングして下さい。
検索結果の制御:ドキュメントブースト
クローラー>ドキュメントブースト
条件に一致するページを上位に表示します。下の例では、特定のサイトや、特定のキーワードを含むページを上位に表示します。
url.matches(“https://qrk.co.jp/.*”) →クォーク株式会社のページ
content.matches(“.*ポリマー.*”) →全文にポリマーを含むページ
title.matches(“.*自動車.*”) →タイトルに自動車を含むページ
条件とブースト値を指定します。
(注意)ドキュメントブーストは、次回クローリング時に適用されます。すぐに反映したい場合は、対象となるインデックスを削除し、再度クローリングして下さい。
関連コンテンツ
クローラー>関連コンテンツ
検索語、コンテンツ、表示順序を入力します。
対象語で検索すると、以下のようにコンテンツが表示されます。
関連クエリー
クローラー>関連クエリー
検索語、クエリーを入力します。
対象語で検索すると、以下のように関連ワードが表示されます。
インデックスを削除するには
管理画面左上の検索窓から検索し、削除したい検索結果を表示します。ページ下の「このクエリですべてを削除」を押してインデックスを削除します。すべてのインデックスを削除する場合は、検索窓に*を入れてすべてを表示して下さい。
データをダウンロードするには
全般の設定でJSONレスポンスを有効にし、自然言語処理機能側からダウンロードします。