生成AIの概念

OCI生成AIの開発を支援するには、サービスに関連するいくつかの概念および用語を確認してください。

生成AIモデル

これまで見たことのない入力を取得し、新しいコンテンツを生成する大量のデータに対してトレーニングされたAIモデル。

Retrieval-Augmented Generation (RAG)

特定のソースからデータを取得し、指定された情報で大規模言語モデル(LLM)レスポンスを拡張してアースされたレスポンスを生成するプログラム。

プロンプトおよびプロンプト・エンジニアリング

プロンプト

大規模言語モデルへの情報の指示または抽出に使用される自然言語のテキスト文字列。たとえば、

夏至とは何ですか。
風に揺れる木についての詩を書いてください。
前のテキストをより明るく書き直してください。

プロンプト・エンジニアリング

大規模言語モデル(LLM)から最適化されたプロンプトを抽出するために自然言語で特定のリクエストを作成する反復プロセス。使用される正確な言語に基づいて、プロンプト・エンジニアは、より優れた、または異なる出力を提供するようにLLMをガイドできます。

推論

プロンプトでユーザーが提供した指示およびコンテキストに基づいて応答を生成する大規模言語モデル(LLM)の機能。LLMは、明示的にプログラムされることなく、学習したパターンとトレーニング・データ内の関係に基づいて、新しいデータを生成したり、予測を行ったり、結論を導き出すことができます。

推論は、質問への回答、テキストの要約、翻訳などの自然言語処理(NLP)タスクの重要な機能です。生成AIの基礎モデルを推論に使用できます。

ストリーミング

大規模言語モデル(LLM)によるコンテンツの生成。ユーザーは、レスポンスをユーザーに返す前に完全なレスポンスが生成されるのを待機するのではなく、一度に生成されたトークンを表示できます。

埋込み

テキストの意味を保持するプロパティを持つ数値表現。このテキストには、フレーズ、文または1つ以上の段落を指定できます。生成AI埋込みモデルは、入力した各フレーズ、文または段落を、選択した埋込みモデルに応じて384または1024個の数値を持つ配列に変換します。これらの埋込みを使用して、コンテキストまたはカテゴリが類似したフレーズでの類似性を検索できます。埋込みは、通常、ベクトル・データベースに格納されます。埋込みは、キーワードに基づいて結果を検索するのではなく、検索機能が検索するテキストの意味に重点を置いたセマンティック検索に使用されます。埋込みを作成するには、フレーズを英語および他の言語で入力できます。

プレイグラウンド

ホストされた事前トレーニング済モデルおよびカスタム・モデルの調査を、コードを記述することなく行うためのOracle Cloudコンソールのインタフェース。プレイグラウンドを使用してユース・ケースをテストし、プロンプトとパラメータを改良します。結果に満足したら、生成されたコードをコピーするか、モデルのエンドポイントを使用して生成AIをアプリケーションに統合します。

オンデマンドモード

生成AIの事前トレーニング済基本モデルには、オンデマンドと専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、およびモデルの評価に最適です。
としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。

重要

オンデマンド・モードの動的スロットル制限調整

テナントへのリソースの割当てを最適化し、テナントがモデルへの公平なアクセスを確保するために、OCI Generative AIは、モデル需要とシステム容量に基づいて、アクティブなテナンシごとにリクエスト・スロットル制限を定期的に調整します。この調整は、次の要因によって異なります。

ターゲット・モデルでサポートされている現在の最大スループット。
調整時の未使用のシステム容量。
各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。

ヒント

動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

専用AIクラスタ

カスタム・モデルをファインチューニングしたり、基本の事前トレーニング済モデルおよびカスタム・モデルのエンドポイントをホストするために使用できるコンピュート・リソース。クラスタは自分のモデル専用であり、他の顧客と共有されません。

専用モード

生成AIの事前トレーニング済基本モデルには、オンデマンドと専用の2つのモードを介してアクセスできます。専用モードの主な機能は次のとおりです。

専用AIクラスタ用のGPUの専用セットが提供されます。
専用AIクラスタでカスタム・モデルを作成するには、ファインチューニング用にリストされた生成AIの事前トレーニング済基本モデルのサブセットをファインチューニングします。
専用AIクラスタで、基本モデルとファインチューニング・モデルのレプリカをホストできます。
専用AIクラスタを使用する特定の時間に事前にコミットします。価格については、価格のページを参照してください。
リストされているすべてのリージョンの事前トレーニング済モデルで使用できます。
予測可能なパフォーマンスを実現し、本番ワークロードに適しています。

ヒント

専用モードは、使用するためにハードウェアをリースするモデルのシングルテナント使用です。このモードは予測可能なパフォーマンスを提供し、本番ワークロードに推奨されます。専用クラスタのサイズを正しく設定するには、クラスタ・パフォーマンス・ベンチマークを参照してください。

ノート

専用AIクラスタでホストされているモデルは、そのエンドポイントがデプロイされているリージョンでのみ使用できます。各モデルのリージョンのリストを参照してください。

カスタム・モデル

事前トレーニング済モデルをベースとして使用し、独自のデータセットを使用してそのモデルをファインチューニングして作成するモデル。

トークン

トークンは、単語、単語の一部または句読点です。たとえば、appleは1つのトークンで、friendshipは2つのトークン(friendとship)で、don'tは2つのトークン(donと't)です。プレイグラウンドでモデルを実行する場合、出力トークンの最大数を設定できます。トークンごとに4文字を推定します。

温度

出力テキストの生成に使用されるランダム性のレベル。プロンプトを実行するたびにプロンプトに対して同様の出力を生成するには、0を使用します。そのプロンプトに対してランダムな新しいテキストを生成するには、温度を大きくします。

ヒント

温度の設定を0で開始し、出力を改良するためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。繰返しリクエストに対して同じ結果を取得するには、seedパラメータを使用します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値を大きくすると、より多くのランダム出力が生成され、出力テキストがより自然な印象になります。kのデフォルト値は、commandモデルの場合は0、Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

上位P

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に0から1までの小数をpに割り当てます。たとえば、考慮する上位75パーセントに0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

プレゼンス・ペナルティ

出力に表示された各トークンに割り当てられ、使用されていないトークンを使用した出力の生成を促すペナルティ。

尤度

大規模言語モデル(LLM)の出力において、あるトークンが現在の生成済トークンの後に続く可能性の程度。LLMが出力テキストの新しいトークンを生成すると、発生の可能性がすべてのトークンに割り当てられ、この場合、発生の可能性が高いトークンが現在のトークンの後に続く可能性が高くなります。たとえば、単語favoriteの後には単語zebraではなく単語foodまたはbookが続く可能性が高いです。発生の可能性は、-15から0までの数値で定義され、負の数が多いほど、トークンが現在のトークンに従う可能性は低くなります。

プリアンブル

チャット・モデルの初期コンテキストまたはガイド・メッセージ。チャット・モデルにプリアンブルを指定しない場合、そのモデルのデフォルトのプリアンブルが使用されます。cohere.command-r-plusおよびcohere.command-r-16kモデルのデフォルトのプリアンブルは次のとおりです。

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

プリアンブルを与えることは任意です。最適な結果を得るために独自のプリアンブルを使用する場合は、モデル・コンテキスト、指示および会話スタイルを指定します。いくつかの例を示します。

あなたは、消費者の行動と市場動向を深く理解している熟練したマーケティング専門家です。わかりやすく有益なトーンで回答し、業界のインサイトとベスト・プラクティスを共有します。
あなたは楽しい活動に焦点を当てた旅行アドバイザーです。ユーモアのセンスと海賊のトーンで答えます。

ノート

また、チャット会話にプリアンブルを含め、モデルに特定の方法で回答するよう直接依頼することもできます。たとえば、「マーケティング・トーンで次の質問に回答します。「セーリングに行くのに最適な場所はどこですか?」

モデル・エンドポイント

大規模言語モデル(LLM)がユーザー・リクエストを受け入れ、モデルの生成されたテキストなどのレスポンスを返信できる専用AIクラスタ上の指定ポイント。

OCI生成AIでは、すぐに使用できる事前トレーニング済モデルおよびカスタム・モデルのエンドポイントを作成できます。これらのエンドポイントは、モデルのテストのためにプレイグラウンドにリストされます。アプリケーションでこれらのエンドポイントを参照することもできます。

コンテンツ・モデレーション

有毒、暴力的、虐待的、軽蔑的、憎悪的、脅迫的、侮辱的、嫌がらせのフレーズを、大規模言語モデル(LLM)で生成された応答から削除する機能。OCI生成AIでは、コンテンツ・モデレーションは次の4つのカテゴリに分かれています。

アイデンティティ攻撃、侮辱、暴力の脅威、性的攻撃などの憎悪とハラスメント
自己傷害および摂食障害の昇進のような自己感染の害、
過激主義、テロリズム、組織犯罪、誤情報などのイデオロギー的な害
詐欺や性的虐待などの搾取

デフォルトでは、OCI生成AIは、すぐに使用できる事前トレーニング済モデルの上にコンテンツ・モデレーション・レイヤーを追加しません。ただし、事前トレーニング済モデルには、出力レスポンスをフィルタするコンテンツ・モデレーションのレベルがあります。コンテンツ・モデレーションをモデルに組み込むには、事前トレーニング済モデルまたはファインチューニング・モデルのエンドポイントを作成するときに、コンテンツ・モデレーションを有効にする必要があります。生成AIでのエンドポイントの作成を参照してください。

廃止および非推奨のモデル

退職: モデルがリタイアされると、生成AIサービスで使用できなくなります。
非推奨: モデルが非推奨になった場合、生成AIサービスでは引き続き使用できますが、廃止される前に使用できる時間は定義されています。

詳細は、モデルのリタイアを参照してください。

Oracle Cloud Infrastructureドキュメント