Oracle Cloud Infrastructureドキュメント

メイン・コンテンツにスキップ

生成AIへのモデルの埋込みについて

OCI生成AI埋込みモデルは、入力した各フレーズ、文または段落を、選択した埋込みモデルに応じて384 (ライト・モデル)または1024個の数値を持つ配列に変換します。

これらの埋込みを使用して、コンテキストまたはカテゴリが類似したフレーズでの類似性を検索できます。埋込みは、通常、ベクトル・データベースに格納されます。埋込みは、キーワードに基づいて結果を検索するのではなく、検索機能が検索するテキストの意味に重点を置いたセマンティック検索に使用されます。

使用可能なモデル

テキスト埋込みの作成には、次のトレーニング済モデルを使用できます:

cohere.embed-english-v3.0
cohere.embed-multilingual-v3.0
cohere.embed-english-light-v3.0
cohere.embed-multilingual-light-v3.0

モデルの選択

Cohere Embed Englishモデルを使用して、英語ドキュメントからテキスト埋込みを生成します。
次の場合にCohere Embed多言語モデルを使用します。
- ドキュメントは英語ではなく、サポートされている言語の1つで記述されます。
- ドキュメントは複数の言語で記述され、これらの言語はサポートされている言語の1つです。

埋込みのビジュアル化: 埋込みを使用して出力をビジュアル化するために、出力ベクトルは2つのディメンションに予測され、Oracle Cloudコンソールでポイントとしてプロットされます。近いポイントは、モデルが類似とみなすフレーズに対応します。「出力のエクスポート」をクリックして、JSONファイルに保存された埋込みごとに1024ベクトルの配列を取得します。

ユース・ケース

次のユース・ケースは、テキスト埋込みに最適です。

セマンティック検索:コール・トランスクリプト、内部ナレッジ・ソースなどを検索します。
テキスト分類:顧客チャット・ログおよびサポート・チケットのインテントを分類します。
テキスト・クラスタリング:顧客レビューまたは新しいデータにおける重要なトピックを識別します。
推奨システム:推奨モデルで使用する数値機能など、ポッドキャストの説明を表します。

埋込みモデル・パラメータ

埋込みモデルを使用すると、次のパラメータを変更して別の出力を取得できます。

切捨て: 文の開始トークンと終了トークンを切り捨てるかどうか(その文が許容されるトークンの最大数を超える場合)。たとえば、文に516個のトークンがありますが、最大トークン・サイズは512です。終了を切り捨てるように選択した場合、その文の最後の4つのトークンが切り捨てられます。

生成AIへのモデルの埋込みについて
埋込みモデル・パラメータ