生成AIにおける専用AIクラスタのパフォーマンス・ベンチマーク
OCI生成AIのホスティング専用AIクラスタのベンチマークを確認します。
- 専用AIクラスタのパフォーマンス・ベンチマークで使用される用語を確認します。
- ホスティング専用AIクラスタ・ベンチマークを取得するには、チャットおよびテキスト生成シナリオおよびテキスト埋込みシナリオの各シナリオをクリックします。
パフォーマンス・ベンチマーク条件
用語 | 単位 | 定義 |
---|---|---|
同時 |
(number) |
同時にリクエストを実行するユーザーの数。 |
メトリック1: トークン・レベルの推論速度 |
トークン/秒 |
このメトリックは、エンドツーエンド・レイテンシの単位ごとに生成される出力トークンの数として定義されます。 平均的な人間の読書速度と一致する必要があるアプリケーションでは、ユーザーは速度が5トークン/秒以上のシナリオ(人間の平均読書速度)に焦点を当てる必要があります。 15トークン/秒推論速度など、ほぼリアルタイムのトークン生成を高速化する必要がある他のシナリオでは、たとえば、処理可能な同時ユーザー数が少なく、全体的なスループットが低くなるダイアログ/チャットボットなどです。 |
メトリック2: トークン・レベルのスループット |
トークン/秒 |
このメトリックは、すべての同時ユーザー・リクエストでサーバーによって生成されたトークンの平均合計数を定量化します。これは、ユーザー全体のリクエストを処理するためのサーバーの容量と効率の総計測を提供します。 オフライン・バッチ処理タスクなど、推論速度がそれほど重要でない場合、焦点はスループットがピークとなり、サーバー・コスト効率が最も高くなります。これは、大量のコンカレント要求を処理するLLMの能力を示します。即時応答が必須ではないバッチ処理またはバックグラウンド・タスクに最適です。 ノート:トークン・レベルのスループット・ベンチマークは、LLMPerfツールを使用して実行されました。スループット計算には、トークン計算用に生成されたテキストをエンコードするために必要な時間が含まれる問題があります。 |
メトリック3: リクエスト・レベルのレイテンシ |
第2 |
リクエストの最後のトークンの生成後など、リクエスト送信からリクエスト完了までにかかった時間の平均。 |
メトリック4: リクエスト・レベルのスループット(RPM) |
リクエスト/秒 |
単位時間(この場合は1分当たり)当たりに処理されたリクエストの数。 |
ホスティング専用AIクラスタのパフォーマンス(推論速度、スループット、レイテンシ)は、ホスティングしているモデルを通過するトラフィック・シナリオによって異なります。トラフィック・シナリオは次によって異なります。
- 同時リクエストの数。
- プロンプト内のトークンの数。
- レスポンス内のトークンの数。
- リクエスト間の(2)および(3)の差異。
チャットおよびテキスト生成のシナリオ
シナリオ | 説明 |
---|---|
このシナリオでは、プロンプトとレスポンスのサイズが事前に不明であるテキスト生成のユースケースを模倣します。 このシナリオでは、プロンプトとレスポンスの長さが不明なため、確率的アプローチを使用して、プロンプトとレスポンスの長さの両方が正規分布に従います。
|
|
RAGシナリオには、非常に長いプロンプトと短い応答があります。このシナリオでは、サマリーのユースケースも模倣します。
|
|
シナリオ3: 世代重視 |
このシナリオは、世代/モデル・レスポンスの多いユースケース用です。たとえば、アイテムの短い箇条書きリストから生成される長いジョブの説明です。この場合、次のトークンの長さを設定します。
|
このシナリオでは、プロンプトとレスポンスが短いチャットボット/ダイアログのユースケースについて説明します。
|
テキスト埋込みシナリオ
シナリオ | 説明 |
---|---|
シナリオ5は、埋込みモデルにのみ適用されます。このシナリオは、ベクトル・データベースのデータ取込みパイプラインの一部として埋込み生成を模倣します。 このシナリオでは、すべてのリクエストが同じサイズ(96ドキュメント、それぞれが512トークン)です。たとえば、ユーザーがベクトルDBに取り込む30,000語以上の単語を含む大きなPDFファイルの集合です。 |
|
シナリオ6: 軽量埋込みワークロード |
より軽い埋込みシナリオはシナリオ5に似ていますが、各リクエストのサイズを16ドキュメント(それぞれ512トークン)に減らす点が異なります。シナリオ6では、単語数が少ない小さいファイルをサポートできます。 |