Optimierungsmethode in generativer KI auswählen

Wenn Sie ein benutzerdefiniertes Modell erstellen, optimiert OCI Generative AI die vortrainierten Basismodelle mit einer Methode, die dem Basismodell entspricht.

Wichtig

Einige vortrainierte Basismodelle von OCI Generative AI, die für den dedizierten Bereitstellungsmodus unterstützt werden, sind jetzt veraltet und werden spätestens 6 Monate nach dem Release des 1. Ersatzmodells in den Ruhestand versetzt. Sie können ein Basismodell hosten oder ein Basismodell optimieren und das fein abgestimmte Modell in einem dedizierten KI-Cluster (dedizierter Bereitstellungsmodus) hosten, bis das Basismodell deaktiviert wird. Informationen zu den Ruhestandsdaten im dedizierten Bereitstellungsmodus finden Sie unter Modelle in den Ruhestand versetzen.

In der folgenden Tabelle ist die Methode aufgeführt, mit der Generative AI die einzelnen Basismodelltypen trainiert:

Vortrainierte Basismodelle Weiterbildungsmethode
  • meta.llama-3.3-70b-instruct (Neu)
  • meta.llama-3.1-70b-instruct
  • meta.llama-3-70b-instruct (veraltet)
  • LoRA
  • cohere.command-r-08-2024
  • cohere.command-r-16k (veraltet)
  • T-Few
  • LoRA
  • T-Few
  • Vanilla
Hinweis

Informationen zu den Hyperparametern, die für jede Trainingsmethode verwendet werden, finden Sie unter Hyperparameter für die Feinabstimmung eines Modells in generativer KI.

Zwischen T-Few und Vanilla wählen

Für die Modelle cohere.command und cohere.command-light verfügt OCI Generative AI über zwei Trainingsmethoden: T-Few und Vanilla. Verwenden Sie die folgenden Richtlinien, um die beste Schulungsmethode für Ihre Anwendungsfälle auszuwählen.

Feature Optionen und Empfehlungen
Schulungsmethoden für cohere.command und cohere.command-light
  • T-Few
  • Vanilla
Dataset-Größe
  • Verwenden Sie T-Few für kleine Datasets (einige Tausend Samples oder weniger)
  • Verwenden Sie Vanilla für große Datasets (von hunderttausend Samples bis zu Millionen Samples)

Die Verwendung kleiner Datasets für die Methode Vanilla kann zu einer Überanpassung führen. Eine Überanpassung erfolgt, wenn das trainierte Modell großartige Ergebnisse für die Trainingsdaten liefert, Ausgaben für nicht sichtbare Daten jedoch nicht verallgemeinern kann.

Komplexität
  • Verwenden Sie T-Few für das folgende Format oder die folgende Anweisung.
  • Verwenden Sie Vanilla, um ein kompliziertes semantisches Verständnis zu verbessern, z. B. das Verständnis eines Modells für medizinische Fälle zu verbessern.
Hosting
  • Verwenden Sie T-Few, wenn Sie mehrere fein abgestimmte Modelle auf demselben dedizierten KI-Cluster hosten möchten. Wenn alle Modelle auf demselben Basismodell trainiert werden, können Sie sie auf demselben Cluster hosten. Dieses Stacked-Serving-Feature spart Kosten und bietet eine gute Performance, wenn der Benutzertraffic zu den einzelnen T-Few-Feinmodellen relativ gering ist. Siehe Endpunkte zu Hosting-Clustern hinzufügen.
  • Jedes Modell, das mit der Methode Vanilla optimiert wird, erfordert ein eigenes dediziertes Hosting-AI-Cluster.