OpenAI gpt-oss-20b (Beta)
Pre-General Availability: 2025-09-09
Diese Dokumentation ist als Entwurf (vor allgemeiner Verfügbarkeit des Produkts) zu betrachten. Sie dient ausschließlich zu Präsentationszwecken und zur vorläufigen Verwendung. Diese Dokumentation bezieht sich nicht notwendigerweise auf die Hardware, auf der Sie die Software einsetzen. Bitte beachten Sie, dass Oracle und seine verbundenen Unternehmen für diese Dokumentation keinerlei Gewährleistung übernehmen und keine Verantwortung für Verluste, Kosten oder Schäden übernehmen, die auf die Nutzung dieser Dokumentation zurückzuführen sind.
Diese Dokumentation stellt keine Verpflichtung seitens Oracle zur Bereitstellung von Materialien, Code, Funktionalität oder Services dar. Diese Dokumentation sowie die Oracle-Programme und -Services, die sich im Entwurfs- bzw. Entwicklungsstadium befinden, können jederzeit und ohne vorherige Ankündigung geändert werden und dürfen nicht als Grundlage einer Kaufentscheidung herangezogen werden. Entwicklung, Freigabe und der Zeitplan von Funktionen oder Funktionalität der Oracle-Programme und -Services, die sich noch in der Entwicklung befinden, liegen im alleinigen Ermessen von Oracle. Alle Releasedaten oder andere Vorhersagen zukünftiger Ereignisse können sich ändern. Die zukünftige Verfügbarkeit zukünftiger Oracle-Programme oder -Services darf nicht als Grundlage für den Abschluss eines Lizenz- oder Servicevertrags mit Oracle herangezogen werden.
Siehe Oracle Legal Notices.
openai.gpt-oss-20b
ist ein offenes, Nur-Text-Sprachmodell, das für leistungsstarke Argumentations- und Agent-Aufgaben entwickelt wurde.
In diesen Regionen verfügbar
- Germany Central (Frankfurt) (nur bei Bedarf)
- Japan Central (Osaka) (nur bei Bedarf)
- Mittlerer Westen der USA (Chicago) (nur bei Bedarf)
Wichtige Features
- Modellname in OCI Generative AI:
openai.gpt-oss-20b
- Modellgröße: 21 Milliarden Parameter
- On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
- Nur Textmodus: Geben Sie Text ein, und rufen Sie eine Textausgabe ab. Bilder und Dateieingaben wie Audio-, Video- und Dokumentdateien werden nicht unterstützt.
- Wissen: Spezialisiert auf erweiterte Argumentations- und textbasierte Aufgaben in einer Vielzahl von Themen.
- Kontextlänge: 128.000 Token (maximale Prompt- und Antwortlänge beträgt 128.000 Token für jede Ausführung). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt.
- Excels at These Use Cases: Aufgrund seiner Trainingsdaten ist dieses Modell besonders stark in MINT (Wissenschaft, Technologie, Engineering und Mathematik), Codierung und allgemeinem Wissen. Verwendung für Anwendungsfälle mit geringer Latenz, auf dem Gerät, lokale Inferenz oder schnelle Iteration, die keinen großen Speicher erfordern.
- Funktionsaufruf: Ja, über die API.
- Hat Argumentation: Ja.
- Knowledge Cutoff: Juni 2024
Details zu wichtigen Features finden Sie in der OpenAI gpt-oss-Dokumentation.
Bedarfsgesteuerter Modus
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal zum Experimentieren, zum Nachweis von Konzepten und zur Auswertung der Modelle.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Dynamische Throttling-Limitanpassung für On-Demand-Modus
Um eine optimierte Zuweisung von Ressourcen zu Mandanten zu ermöglichen und sicherzustellen, dass Mandanten fairen Zugriff auf die Modelle erhalten, passt OCI Generative AI regelmäßig das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf Modellbedarf und Systemkapazität an. Diese Anpassung hängt von folgenden Faktoren ab:
- Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
- Nicht verwendete Systemkapazität zum Zeitpunkt der Anpassung.
- Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.
Aufgrund der dynamischen Anpassung der Drosselgrenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.
Das Modell OpenAI gpt-oss-20b (Beta) ist nur im On-Demand-Modus verfügbar.
Modellname | OCI-Modellname | Zugriff abrufen |
---|---|---|
OpenAI gpt-oss-20b (Beta) | openai.gpt-oss-20b |
Contact Oracle Beta Programs |
Freigabedatum
Modell | Beta-Freigabedatum | Abgangsdatum bei Bedarf | Abgangsdatum im dedizierten Modus |
---|---|---|---|
openai.gpt-oss-20b |
2.025-9-9 | Vorbehalt | Dieses Modell ist für den dedizierten Modus nicht verfügbar. |
Weitere Informationen zur Einstellung und Einstellung des OCI Generative AI-Modells finden Sie unter Modelle einstellen.
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token. Die maximale Länge für Prompt + Ausgabe beträgt 128.000 Token für jede Ausführung. Im Playground werden die maximalen Ausgabetoken für jede Ausführung auf 16.000 Token begrenzt.
Tipp
Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. - Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min: 0, Max: 2, Standard: 1
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
p
eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siep
auf 1, um alle Token zu berücksichtigen. Standard: 1 - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe. Auf 0 setzen, um zu deaktivieren. Standard: 0
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern. Auf 0 setzen, um zu deaktivieren. Standard: 0