Cohere Embed 4 (Neu)

Die cohere.embed-v4.0 ist ein multimodales Modell, das Texteinbettungen entweder aus Texteingaben oder aus einem Bild erstellen kann. Die Bildeingabe ist in der Konsole nicht verfügbar, und Sie müssen die API verwenden. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

In diesen Regionen verfügbar

Brazil East (Sao Paulo) (nur dediziertes KI-Cluster)
Germany Central (Frankfurt) (nur dediziertes KI-Cluster)
India South (Hyderabad) (nur dediziertes KI-Cluster)
Japan Central (Osaka)
Saudi Arabia Central (Riad)
UAE East (Dubai) (nur dediziertes KI-Cluster)
UK South (London) (nur dediziertes KI-Cluster)
US Midwest (Chicago)

Zugriff auf dieses Modell

Greifen Sie über die Konsole, API und die CLI auf dieses Modell zu:

Wichtige Features

Modus
- Text oder Bild eingeben, aber nicht beides.
- Um Einbettungen für ein Bild zu erhalten, ist nur ein Bild zulässig. Sie können Text und Bild nicht für dieselbe Einbettung kombinieren. Bildeingabe nur über API.
Ein- und Ausgaben
- In der Konsole muss jede Texteingabe kleiner als 512 Token und maximal 96 Eingaben pro Ausführung sein.
- Im SDK und in der API können alle Eingaben zusammen bis zu 128.000 Token pro Einbettung pro Ausführung hinzufügen.
- Das Modell gibt für jede Einbettung einen 1.536-dimensionalen Vektor aus.
Unterstützung der Landessprache
- Text: Englisch oder Mehrsprachig.
- Bild: Nur Englisch.

Bedarfsgesteuerter Modus

Dieses Modell ist On-Demand in Regionen verfügbar, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind. In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".


Modellname	OCI-Modellname	Preisfindungsseite - Produktname
Cohere Cohere Embed 4	`cohere.embed-v4.0`	Embed Cohere

Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:

Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
Geringe Barriere für den Einsatz generativer KI.
Ideal für Experimente, Proof of Concept und Modellauswertung.
Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.

Wichtig

Dynamische Throttling-Limitanpassung für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Anpassung hängt von folgenden Faktoren ab:

Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
Nicht verwendete Systemkapazität zum Zeitpunkt der Anpassung.
Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Anpassung der Drosselgrenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Dediziertes KI-Cluster für das Modell

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.


Basismodell	Optimierungscluster	Hostingcluster	Preisfindungsseiteninformationen	Erhöhung des Clusterlimits anfordern
Modellname: Cohere Embed 4 OCI-Modellname: `cohere.embed-v4.0`	Nicht für Feinabstimmung verfügbar	Einheit: Embed Cohere Erforderliche Maßeinheiten: 1	Produktname der Preisseite: Embed Cohere - Dedicated Für Hosting Multiply the Unit Price: x1	Limitname: `dedicated-unit-embed-cohere-count` Für Hosting erhöhen Sie das Limit um: 1

Tipp

Wenn in Ihrem Mandanten nicht genügend Clusterlimits für das Hosting eines Einbettungsmodells in einem dedizierten KI-Cluster vorhanden sind, fordern Sie die Erhöhung des Limits dedicated-unit-embed-cohere-count um 1 an.

Endpunktregeln für Cluster

Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.


Hostingclustereinheitsgröße	Endpunktregeln
Embed Cohere	Basismodell: Um das Modell ⁇ `cohere.embed-v4.0` ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Embed Cohere-Cluster benötigen (Größe der Einheit). Benutzerdefiniertes Modell: Sie können `cohere.embed-v4.0` nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.

Tipp

Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an: endpoint-per-dedicated-unit-count. Siehe Erhöhung des Servicelimits beantragen und Servicelimits für generative KI.

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.

Abruf- und Abgangsdatum


Modell	Freigabedatum	Abgangsdatum bei Bedarf	Abgangsdatum im dedizierten Modus
`cohere.embed-v4.0`	2.025-7-3	Mindestens 6 Monate nach dem Release des 1. Ersatzmodells.	Mindestens 6 Monate nach dem Release des 1. Ersatzmodells.

Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Eingabedaten für Texteinbettungen

Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:

Sie können Sätze, Phrasen oder Absätze zum Einbetten entweder einzeln oder durch Hochladen einer Datei hinzufügen.
Nur Dateien mit der Erweiterung .txt sind zulässig.
Wenn Sie eine Eingabedatei verwenden, müssen jeder Eingabesatz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenvorschubzeichen getrennt werden.
Für jede Ausführung sind maximal 96 Eingaben zulässig.
In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Textes abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

Weitere Informationen finden Sie unter Texteinbettungen in OCI Generative AI erstellen.

Modellparameter für Einbettung

Wenn Sie die Einbettungsmodelle verwenden, können Sie eine andere Ausgabe erhalten, indem Sie den folgenden Parameter ändern.

Truncate: Gibt an, ob die Start- oder Endtoken in einem Satz abgeschnitten werden sollen, wenn der Satz die maximale Anzahl zulässiger Token überschreitet. Beispiel: Ein Satz hat 516 Token, die maximale Tokengröße ist jedoch 512. Wenn Sie das Ende abschneiden, werden die letzten 4 Token dieses Satzes abgeschnitten.

Oracle Cloud Infrastructure-Dokumentation

Cohere Embed 4 (Neu)

In diesen Regionen verfügbar

Zugriff auf dieses Modell

Wichtige Features

Bedarfsgesteuerter Modus

Dediziertes KI-Cluster für das Modell

Endpunktregeln für Cluster

Clusterperformancebenchmarks

Abruf- und Abgangsdatum

Eingabedaten für Texteinbettungen

Modellparameter für Einbettung