最終更新日 2026年1月12日 by Quark Staff
Xinferenceの起動
~/dify/docker下に、Xnferenceの起動用ファイルcompose-xinference2.yamlがありますので、以下のコマンドで起動します。
cd ~/dify/docker
docker compose -f compose-xinference2.yaml up -dリランクモデルの起動
ブラウザで、http://192.168.10.18:9997 へアクセスします。RERANK MODELSタブのbge-reranker-v2-m3のタイルをクリックします(一度起動されたモデルはキャッシュされています)。

DeviceにGPUが選択されていることを確認して、左下のロケットボタンを押してモデルをRUNします。

正常に起動すると、Running Modelsにリストされます。リストに無い場合は、起動できていませんので、VRAMの残量を確認して下さい(nvidia-smi)。それでも起動できない場合は、クォークまでお問い合わせ下さい。

Difyへの登録
Dify>設定>モデルプロバイダの、Xorbits Inferenceにて、リランクモデルを追加します。

モデルを追加にて、以下のように入力し、保存して下さい。

その後、右上のシステムモデル設定にて、Rerankモデルをbge-reranker-v2-m3に設定して下さい。もし、bge-reranker-v2-m3が選択できない場合は、一度ログアウトして再度ログインした後に、選択してみて下さい。

以上で設定は完了です。
リランクモデルの使い方
Difyへ正常にリランクモデルを登録すると、ナレッジベースの設定の検索設定にて、Rerankモデルを選択できるようになります。

ご注意
・リランクモデルの起動はVRAMを消費しますのでご注意下さい(2~3GB)。gpt-oss:20bとの併用はおすすめいたしません。gemma:12b以下の使用をおすすめします。また、同じ理由でコンテキストウィドウサイズにはご注意下さい。
・Xinferenceは自動起動の設定はしていませんので、システムを再起動した場合は、必要に応じ再度Xinferenceを起動して下さい。
・bge-reranker-v2-m3はオープンソースモデルです。その他のモデルをご使用の場合は、クォークへご相談下さい。