Cohere Embed 4 (Neu)

Die cohere.embed-v4.0 ist ein multimodales Modell, das Texteinbettungen entweder aus Texteingaben oder aus einem Bild erstellen kann. Die Bildeingabe ist in der Konsole nicht verfügbar, und Sie müssen die API verwenden. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

In diesen Regionen verfügbar

  • Brazil East (Sao Paulo) (nur dediziertes KI-Cluster)
  • Germany Central (Frankfurt) (nur dediziertes KI-Cluster)
  • India South (Hyderabad) (nur dediziertes KI-Cluster)
  • Japan Central (Osaka)
  • Saudi Arabia Central (Riad)
  • UAE East (Dubai) (nur dediziertes KI-Cluster)
  • UK South (London) (nur dediziertes KI-Cluster)
  • US Midwest (Chicago)

Wichtige Features

  • Modus
    • Text oder Bild eingeben, aber nicht beides.
    • Um Einbettungen für ein Bild zu erhalten, ist nur ein Bild zulässig. Sie können Text und Bild nicht für dieselbe Einbettung kombinieren. Bildeingabe nur über API.
  • Ein- und Ausgaben
    • In der Konsole muss jede Texteingabe kleiner als 512 Token und maximal 96 Eingaben pro Ausführung sein.
    • Im SDK und in der API können alle Eingaben zusammen bis zu 128.000 Token pro Einbettung pro Ausführung hinzufügen.
    • Das Modell gibt für jede Einbettung einen 1.536-dimensionalen Vektor aus.
  • Unterstützung der Landessprache

Bedarfsgesteuerter Modus

Dieses Modell ist On-Demand in Regionen verfügbar, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind. In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".

Modellname OCI-Modellname Preisfindungsseite - Produktname
Cohere Cohere Embed 4 cohere.embed-v4.0 Embed Cohere
Sie können die vortrainierten Basismodelle in generativer KI über zwei Modi erreichen: On-Demand und dediziert. Im Folgenden werden die wichtigsten Features für den On-Demand-Modus aufgeführt:
  • Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.

  • Geringe Barriere für den Einsatz generativer KI.
  • Ideal für Experimente, Proof of Concept und Modellauswertung.
  • Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Wichtig

Dynamische Throttling-Limitanpassung für On-Demand-Modus

OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.

Diese Anpassung hängt von folgenden Faktoren ab:

  • Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
  • Nicht verwendete Systemkapazität zum Zeitpunkt der Anpassung.
  • Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.

Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.

Tipp

Aufgrund der dynamischen Anpassung der Drosselgrenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.

Dediziertes KI-Cluster für das Modell

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Cohere Embed 4
  • OCI-Modellname: cohere.embed-v4.0
Nicht für Feinabstimmung verfügbar
  • Einheit: Embed Cohere
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Embed Cohere - Dedicated
  • Für Hosting Multiply the Unit Price: x1
  • Limitname: dedicated-unit-embed-cohere-count
  • Für Hosting erhöhen Sie das Limit um: 1
Tipp

Wenn in Ihrem Mandanten nicht genügend Clusterlimits für das Hosting eines Einbettungsmodells in einem dedizierten KI-Cluster vorhanden sind, fordern Sie die Erhöhung des Limits dedicated-unit-embed-cohere-count um 1 an.

Endpunktregeln für Cluster

  • Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
  • Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
  • Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße Endpunktregeln
Embed Cohere
  • Basismodell: Um das Modell ⁇ cohere.embed-v4.0 ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Embed Cohere-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können cohere.embed-v4.0 nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
Tipp

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für Cohere Embed 4-Cluster für verschiedene Anwendungsfälle.

Abruf- und Abgangsdatum

Modell Freigabedatum Abgangsdatum bei Bedarf Abgangsdatum im dedizierten Modus
cohere.embed-v4.0 2.025-7-3 Mindestens 6 Monate nach dem Release des 1. Ersatzmodells. Mindestens 6 Monate nach dem Release des 1. Ersatzmodells.
Wichtig

Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.

Eingabedaten für Texteinbettungen

Die Eingabedaten für die Erstellung von Texteinbettungen haben folgende Anforderungen:

  • Sie können Sätze, Phrasen oder Absätze zum Einbetten entweder einzeln oder durch Hochladen einer Datei hinzufügen.
  • Nur Dateien mit der Erweiterung .txt sind zulässig.
  • Wenn Sie eine Eingabedatei verwenden, müssen jeder Eingabesatz, jede Wortgruppe oder jeder Absatz in der Datei durch ein Zeilenvorschubzeichen getrennt werden.
  • Für jede Ausführung sind maximal 96 Eingaben zulässig.
  • In der Konsole muss jede Eingabe weniger als 512 Token für Nur-Text-Modelle enthalten.
  • Wenn eine Eingabe zu lang ist, wählen Sie, ob der Anfang oder das Ende des Textes abgeschnitten werden soll, um innerhalb des Tokenlimits zu passen, indem Sie den Parameter Abschneiden auf Start oder Ende setzen. Wenn eine Eingabe den Tokengrenzwert von 512 überschreitet und der Parameter Abschneiden auf Kein Wert gesetzt ist, wird eine Fehlermeldung angezeigt.
  • Für die Text- und Bildmodelle können Sie Dateien und Eingaben haben, die alle bis zu 128.000 Token hinzufügen.
  • Für die Modelle zum Einbetten von Text und Bildern, wie Cohere Embed English Image V3, können Sie entweder Text hinzufügen oder nur ein Bild hinzufügen. Für das Image können Sie die API verwenden. Bildeingabe ist in der Konsole nicht verfügbar. Geben Sie für die API in jeder Ausführung ein base64-codiertes Image ein. Beispiel: Ein 512 x 512-Bild wird in etwa 1.610 Token konvertiert.

Weitere Informationen finden Sie unter Texteinbettungen in OCI Generative AI erstellen.

Modellparameter für Einbettung

Wenn Sie die Einbettungsmodelle verwenden, können Sie eine andere Ausgabe erhalten, indem Sie den folgenden Parameter ändern.

Truncate

Gibt an, ob die Start- oder Endtoken in einem Satz abgeschnitten werden sollen, wenn der Satz die maximale Anzahl zulässiger Token überschreitet. Beispiel: Ein Satz hat 516 Token, die maximale Tokengröße ist jedoch 512. Wenn Sie das Ende abschneiden, werden die letzten 4 Token dieses Satzes abgeschnitten.