OpenAI gpt-oss-120b (Beta)

重要

Oracleの法律上の注意点を参照してください。

openai.gpt-oss-120bは、強力な推論およびエージェント・タスクのために設計された、テキストのみのオープン・ウェイトの言語モデルです。

これらのリージョンで使用可能

  • ドイツ中央部(フランクフルト)(オンデマンドのみ)
  • 日本中央部(大阪)(オンデマンドのみ)
  • 米国中西部(シカゴ) (オンデマンドのみ)

主な機能

  • OCI生成AIのモデル名: openai.gpt-oss-120b
  • モデル・サイズ: 1170億のパラメータ
  • オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
  • テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
  • ナレッジ:幅広い科目にわたる高度な推論とテキストベースのタスクに特化しています。
  • コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
  • これらのユースケースでのエクセル:このモデルは、トレーニング・データのため、STEM(科学、技術、工学、数学)、コーディングおよび一般的な知識において特に強力です。高調味の本番レベルのタスクに適しています。
  • ファンクション・コール:はい(APIを使用)。
  • 推論あり:はい。
  • ナレッジ・カットオフ: 2024年6月

主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。

オンデマンドモード

生成AIの事前トレーニング済基本モデルには、オンデマンド専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、およびモデルの評価に最適です。
  • としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
重要

オンデマンド・モードの動的スロットル制限調整

テナントへのリソースの割当てを最適化し、テナントがモデルへの公平なアクセスを確保するために、OCI Generative AIは、モデル需要とシステム容量に基づいて、アクティブなテナンシごとにリクエスト・スロットル制限を定期的に調整します。この調整は、次の要因によって異なります。

  • ターゲット・モデルでサポートされている現在の最大スループット。
  • 調整時の未使用のシステム容量。
  • 各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。
ヒント

動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

ノート

OpenAI gpt-oss-120b (Beta)モデルは、オンデマンド・モードでのみ使用できます。
モデル名 OCIモデル名 アクセス取得
OpenAI gpt-oss-120b (Beta) openai.gpt-oss-120b Contact Oracle Beta Programs

リリース日

モデル ベータ・リリース日 オンデマンド処分日 専用モード除・売却日
openai.gpt-oss-120b 2025-09-09 このモデルは専用モードには使用できません。
重要

OCI生成AIモデルの廃止および廃止について学習するには、モデルの廃止を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。

ヒント

困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。
温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。デフォルト: 1

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0