xAI Grok 4 Fast (Neu)

Das xAI Grok 4 Fast-Modell ist eine geschwindigkeits- und kostenoptimierte Version des xAI Grok 4-Modells. Ähnlich wie Grok 4 zeichnet sich dieses Modell bei Unternehmensanwendungsfällen wie Datenextraktion, -codierung und -zusammenfassung aus und verfügt über fundiertes Fachwissen in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.

Grok 4 Fast ist schneller als Grok 4, mit einer schnellen Time-to-First-Token- und hohen Ausgabegeschwindigkeit. Diese Priorisierung der Geschwindigkeit macht dieses Modell ideal für Echtzeitanwendungen.

In diesen Regionen verfügbar

US East (Ashburn) (nur bei Bedarf)
Mittlerer Westen der USA (Chicago) (nur bei Bedarf)
US West (Phoenix) (nur bei Bedarf)

Wichtig

Externe Aufrufe

Die xAI Grok-Modelle werden in einem OCI-Data Center in einem Mandanten gehostet, der für xAI bereitgestellt wird. Die xAI Grok-Modelle, auf die über den OCI Generative AI-Service zugegriffen werden kann, werden von xAI verwaltet.

Zugriff auf dieses Modell

Greifen Sie über die Konsole, API und die CLI auf dieses Modell zu:

Überblick

Das xAI Grok 4 Fast-Modell ist in zwei Modi erhältlich, die in zwei separaten Modellen angeboten werden. Ein Grundmodell und ein Nicht-Grundmodell. In der folgenden Tabelle können Sie entscheiden, welches Modell Sie auswählen möchten.


Modus	Modellname	Funktionsweise	Wann verwendet
Grund	`xai.grok-4-fast-reasoning`	Generiert Thinking Tokens für eine schrittweise Chain-of-Thought-Analyse und liefert eine tiefere logische Argumentation mit mehr Latenz (weniger als bei früheren Argumentationsmodellen).	Komplexe, mehrstufige Probleme, die sorgfältige, analytische Lösungen erfordern.
Keine Gründe	`xai.grok-4-fast-non-reasoning`	Überspringt die Phase Thinking Tokens und gibt sofortige, mit Mustern übereinstimmende Antworten zurück.	Einfache, einfache Abfragen, bei denen die Geschwindigkeit die Priorität hat.

Wichtige Features

Modellnamen in OCI Generative AI:
- xai.grok-4-fast-reasoning
- xai.grok-4-fast-non-reasoning
On-Demand verfügbar: Greifen Sie auf dieses Modell On-Demand über den Playground der Konsole oder die API zu.
Multimodale Unterstützung: Geben Sie Text und Bilder ein, und rufen Sie eine Textausgabe ab.
Wissen: Verfügt über umfassende Kenntnisse in den Bereichen Finanzen, Gesundheitswesen, Recht und Wissenschaft.
Kontextlänge: 2 Millionen Token (maximale Prompt- und Antwortlänge beträgt 2 Millionen Token, um den Kontext beizubehalten). Im Spielplatz wird die Antwortlänge für jeden Lauf auf 16.000 Token begrenzt, der Kontext bleibt jedoch 2 Millionen.
Modi: Funktioniert in zwei Modi: "Grundlagen" für komplexe Aufgaben und "Nicht-Grundlagen" für geschwindigkeitskritische, einfache Anforderungen.
Funktionsaufruf: Ja, über die API.
Strukturierte Ausgaben: Ja.
Gecachte Eingabetoken: Ja
- Tokenanzahl: Siehe das Attribut cachedTokens in der API der PromptTokensDetails-Referenz.
- Preisfindung: Siehe Seite "Preisfindung".
Wichtiger Hinweis: Die Eingabefunktion im Cache ist sowohl im Playground als auch in der API verfügbar. Diese Informationen können jedoch nur über die API abgerufen werden.
Knowledge Cutoff: Nicht verfügbar

Limits

Bildeingaben

Konsole: Laden Sie mindestens ein .png- oder .jpg-Image mit jeweils 5 MB oder weniger hoch.
API: Nur JPG/JPEG- und PNG-Dateiformate werden unterstützt. Leiten Sie eine base64-codierte Version eines Images weiter, und stellen Sie sicher, dass jedes konvertierte Image mehr als 256 und weniger als 1.792 Token aufweist. Beispiel: Ein 512 x 512-Bild konvertiert in der Regel in etwa 1.610 Token. Es gibt keine angegebene maximale Anzahl von Bildern, die hochgeladen werden können. Die kombinierte Tokenanzahl für Text und Bilder muss sich im gesamten Kontextfenster des Modells mit 2 Millionen Token befinden.

Bedarfsgesteuerter Modus

Hinweis

Die Grok-Modelle sind nur im On-Demand-Modus verfügbar.


Modellname	OCI-Modellname	Preisfindungsseite - Produktname
xAI Grok 4 Fast	`xai.grok-4-fast-reasoning` `xai.grok-4-fast-non-reasoning`	xAI - Grok 4 Schnell Preise sind aufgeführt für: Eingabetoken Ausgabetoken Zwischengespeicherte Eingabetoken

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:

Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
Geringe Barriere für den Einsatz generativer KI.
Ideal für Experimente, Proof of Concept und Modellauswertung.
Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.

Freigabedatum


Modell	Veröffentlichungsdatum der allgemeinen Verfügbarkeit	Abgangsdatum bei Bedarf	Abgangsdatum im dedizierten Modus
`xai.grok-4-fast-reasoning`	2025-10-10	Vorbehalt	Dieses Modell ist für den dedizierten Modus nicht verfügbar.
`xai.grok-4-fast-non-reasoning`	2025-10-10	Vorbehalt	Dieses Modell ist für den dedizierten Modus nicht verfügbar.

Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken: Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.

Tipp

Legen Sie für große Eingaben mit schwierigen Problemen einen hohen Wert für den Parameter "Maximale Ausgabetoken" fest. Siehe Fehlerbehebung.
Temperatur: Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird. Min.: 0, Max.: 2

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top p: Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Fehlerbehebung

Problem: Das Modell Grok 4 Fast reagiert nicht.

Ursache: Der Parameter Maximale Ausgabetoken im Playground oder der Parameter max_tokens in der API ist wahrscheinlich zu niedrig. Beispiel: Standardmäßig ist dieser Parameter auf 600 Token im Playground gesetzt, was für komplexe Aufgaben niedrig sein kann.

Aktion: Erhöhen Sie den Parameter für die maximalen Ausgabetoken.

Oracle Cloud Infrastructure-Dokumentation