OpenAI gpt-oss-120b (Beta)
Pre-General Availability: 2025-09-09
このドキュメントはPre-General Availability (一般提供前)版であり、デモおよび暫定使用のみを目的としたものです。このソフトウェアを使用するハードウェアに限定するものではありません。Oracle Corporationおよびその関連会社は、このドキュメントに関して一切の責任を負わず、いかなる保証もいたしません。また、このドキュメントを使用したことによって損失、費用、あるいは損害が発生しても、一切の責任を負いかねます。
このドキュメントは、マテリアルやコード、機能またはサービスを提供することのオラクルによるコミットメント(確約)ではありません。このドキュメントおよびOracleのPre-General Availability(一般提供前) プログラムとサービスは、予告なしにいつでも変更される可能性があります。したがって、購買決定を行う際の判断材料にしないでください。オラクルのPre-General Availability(一般提供前)プログラムおよびサービスの開発、リリース、およびすべての機能の時期は、オラクルの単独の裁量により決定されます。すべてのリリース日または将来のイベントなどの予測は変更される可能性があります。オラクルとのあらゆるライセンス契約またはサービス契約の締結にあたり、今後のオラクルのプログラムまたはサービスの将来の利用可能性を前提としないでください。
Oracleの法律上の注意点を参照してください。
openai.gpt-oss-120b
は、強力な推論およびエージェント・タスクのために設計された、テキストのみのオープン・ウェイトの言語モデルです。
これらのリージョンで使用可能
- ドイツ中央部(フランクフルト)(オンデマンドのみ)
- 日本中央部(大阪)(オンデマンドのみ)
- 米国中西部(シカゴ) (オンデマンドのみ)
主な機能
- OCI生成AIのモデル名:
openai.gpt-oss-120b
- モデル・サイズ: 1170億のパラメータ
- オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
- テキスト・モードのみ:テキストを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのイメージおよびファイル入力はサポートされていません。
- ナレッジ:幅広い科目にわたる高度な推論とテキストベースのタスクに特化しています。
- コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長は、実行ごとに128,000トークンです)。プレイグラウンドでは、各実行の応答長は16,000トークンに制限されます。
- これらのユースケースでのエクセル:このモデルは、トレーニング・データのため、STEM(科学、技術、工学、数学)、コーディングおよび一般的な知識において特に強力です。高調味の本番レベルのタスクに適しています。
- ファンクション・コール:はい(APIを使用)。
- 推論あり:はい。
- ナレッジ・カットオフ: 2024年6月
主な機能の詳細は、OpenAI gpt-ossのドキュメントを参照してください。
オンデマンドモード
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、およびモデルの評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードの動的スロットル制限調整
テナントへのリソースの割当てを最適化し、テナントがモデルへの公平なアクセスを確保するために、OCI Generative AIは、モデル需要とシステム容量に基づいて、アクティブなテナンシごとにリクエスト・スロットル制限を定期的に調整します。この調整は、次の要因によって異なります。
- ターゲット・モデルでサポートされている現在の最大スループット。
- 調整時の未使用のシステム容量。
- 各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。
動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
OpenAI gpt-oss-120b (Beta)モデルは、オンデマンド・モードでのみ使用できます。
モデル名 | OCIモデル名 | アクセス取得 |
---|---|---|
OpenAI gpt-oss-120b (Beta) | openai.gpt-oss-120b |
Contact Oracle Beta Programs |
リリース日
モデル | ベータ・リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
openai.gpt-oss-120b |
2025-09-09 | 仮 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。プレイグラウンドでは、最大出力トークンは実行ごとに16,000トークンに制限されます。
ヒント
困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。デフォルト: 1 - 頻度ペナルティ
-
トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。無効にするには、0に設定します。デフォルト: 0
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。無効にするには、0に設定します。デフォルト: 0