Meta Llama 3.1 (405B)
Das meta.llama-3.1-405b-instruct
-Modell ist für On-Demand-Inferenzierung, dediziertes Hosting und Feinabstimmung verfügbar und bietet eine bessere Performance als Llama 3.1 70B und Llama 3.2 90B für Textaufgaben.
Dieses 405-Milliarden-Parameter-Modell ist eine leistungsstarke Option, die Geschwindigkeit und Skalierbarkeit bietet. Im Vergleich zum meta.llama-3.1-70b-instruct
-Modell kann es ein größeres Anforderungsvolumen verarbeiten und komplexere Anwendungsfälle unterstützen. Zu den wichtigsten Merkmalen dieses Modells gehören:
- Es wurde zum Zeitpunkt seiner Veröffentlichung als größtes öffentlich verfügbares großes Sprachmodell anerkannt.
- Geeignet für Anwendungen auf Unternehmensebene sowie für Forschungs- und Entwicklungsinitiativen.
- Zeigt außergewöhnliche Fähigkeiten in Bereichen wie Allgemeinwissen, synthetische Datengenerierung, fortgeschrittenes Denken und kontextbezogenes Verständnis sowie Langformtext, mehrsprachige Übersetzung, Codierung, Mathematik und Werkzeugverwendung an.
In diesen Regionen verfügbar
- Brazil East (Sao Paulo) (nur dediziertes KI-Cluster)
- Germany Central (Frankfurt) (nur dediziertes KI-Cluster)
- Japan Central (Osaka) (nur dediziertes KI-Cluster)
- UK South (London) (nur dediziertes KI-Cluster)
- US Midwest (Chicago)
Zugriff auf dieses Modell
Wichtige Features
- Modellgröße: 405 Milliarden Parameter
- Kontextlänge: 128.000 Token (Maximale Prompt- und Antwortlänge: 128.000 Token für jede Ausführung)
- Mehrsprachige Unterstützung: Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thai
- Maximale Prompt- und Antwortlänge: 128.000 Token für jede Ausführung.
- Für On-Demand-Inferenzierungen wird die Antwortlänge für jede Ausführung auf 4.000 Token begrenzt.
- Für den dedizierten Modus wird die Antwortlänge nicht begrenzt, und die Kontextlänge beträgt 128.000 Token.
- On-Demand-Inferenzierung ist nur in der Region US Midwest (Chicago) verfügbar. In anderen Regionen müssen Sie eigene dedizierte KI-Cluster erstellen und dieses Modell zur Inferenzierung in diesen Clustern hosten. Siehe den nächsten Abschnitt.
Bedarfsgesteuerter Modus
Dieses Modell ist On-Demand in Regionen verfügbar, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind. In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".
Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
---|---|---|
Meta Llama 3.1 (405B) | meta.llama-3.1-405b-instruct |
Meta Llama 3.1 405B |
-
Sie zahlen unterwegs für jeden Inferenzaufruf, wenn Sie die Modelle im Playground verwenden oder die Modelle über die API aufrufen.
- Geringe Barriere für den Einsatz generativer KI.
- Ideal für Experimente, Proof of Concept und Modellauswertung.
- Verfügbar für die vortrainierten Modelle in Regionen, die nicht als (nur dediziertes KI-Cluster) aufgeführt sind.
Dynamische Throttling-Limitanpassung für On-Demand-Modus
OCI Generative AI passt das Throttling-Limit für Anforderungen für jeden aktiven Mandanten basierend auf dem Modellbedarf und der Systemkapazität dynamisch an, um die Ressourcenzuweisung zu optimieren und einen fairen Zugriff sicherzustellen.
Diese Anpassung hängt von folgenden Faktoren ab:
- Der vom Zielmodell unterstützte aktuelle maximale Durchsatz.
- Nicht verwendete Systemkapazität zum Zeitpunkt der Anpassung.
- Die historische Durchsatznutzung jedes Mandanten und alle angegebenen Override-Limits, die für diesen Mandanten festgelegt sind.
Hinweis: Aufgrund der dynamischen Drosselung sind die Ratenlimits nicht dokumentiert und können sich ändern, um den systemweiten Bedarf zu decken.
Aufgrund der dynamischen Anpassung der Drosselgrenze empfehlen wir die Implementierung einer Back-off-Strategie, bei der Anforderungen nach einer Ablehnung verzögert werden. Ohne eine können wiederholte schnelle Anfragen zu weiteren Ablehnungen im Laufe der Zeit, einer erhöhten Latenz und einer potenziellen vorübergehenden Blockierung des Clients durch den Generative AI-Service führen. Durch die Verwendung einer Back-off-Strategie, wie z. B. einer exponentiellen Back-off-Strategie, können Sie Anforderungen gleichmäßiger verteilen, die Last reduzieren und den Wiederholungserfolg verbessern. Befolgen Sie die Best Practices der Branche, und verbessern Sie die allgemeine Stabilität und Performance Ihrer Integration in den Service.
Dediziertes KI-Cluster für das Modell
Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.
Basismodell | Optimierungscluster | Hostingcluster | Preisfindungsseiteninformationen | Erhöhung des Clusterlimits anfordern |
---|---|---|---|---|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
Wenn in Ihrem Mandanten nicht genügend Clusterlimits für das Hosting des Modells Meta Llama 3.1 (405B) in einem dedizierten KI-Cluster vorhanden sind, fordern Sie die Erhöhung des Limits dedicated-unit-llama2-70-count
um 4 an.
Endpunktregeln für Cluster
- Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
- Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
- Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße | Endpunktregeln |
---|---|
Large Generic 2 |
|
-
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
-
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an:
endpoint-per-dedicated-unit-count
. Siehe Erhöhung des Servicelimits beantragen und Servicelimits für generative KI.
Clusterperformancebenchmarks
Prüfen Sie die Performancebenchmarks für das Cluster Meta Llama 3.1 (405B) für verschiedene Anwendungsfälle.
Abruf- und Abgangsdatum
Modell | Freigabedatum | Abgangsdatum bei Bedarf | Abgangsdatum im dedizierten Modus |
---|---|---|---|
meta.llama-3.1-405b-instruct
|
2.024-9-19 | Mindestens einen Monat nach dem Release des 1. Ersatzmodells. | Mindestens 6 Monate nach dem Release des 1. Ersatzmodells. |
Eine Liste aller Modellzeitpositionen und Abgangsdetails finden Sie unter Ablauf der Modelle.
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.
- Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
p
eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siep
auf 1, um alle Token zu berücksichtigen. - Top k
-
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den
top k
-Token wählt. Ein hoher Wert fürk
generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 fürCohere Command
-Modelle und -1 fürMeta Llama
-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte. - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.
Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Auf 0 setzen, um zu deaktivieren.
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.
- Vordefinieren
-
Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.
Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.
Warnung
Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.