Daten in generativer KI trainieren

Im Folgenden finden Sie Richtlinien für die Erstellung von Trainingsdaten zur Feinabstimmung der vortrainierten Modelle in OCI Generative AI. Ein benutzerdefiniertes Modell kann mit nur einem Datensatz verfeinert werden, den das System automatisch in 80 ⁇ % Trainings- und 20 ⁇ % Validierungsdaten aufteilt. Der Datensatz muss eine JSONL-Datei mit mindestens 32 ⁇ Prompt/Completion-Paaren sein, wobei jede Zeile wie folgt formatiert ist: {"prompt": "<your prompt>", "completion": "<expected response>"}. Speichern Sie die Datei in einem OCI Object Storage-Bucket, und referenzieren Sie sie beim Erstellen des benutzerdefinierten Modells.

Dataset-Anforderungen

Datasets für das Training benutzerdefinierter Modelle haben die folgenden Anforderungen:

  • Pro benutzerdefiniertem Modell ist maximal ein Optimierungs-Dataset zulässig. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für Training und Validierung aufgeteilt.
  • Jede Datei muss mindestens 32 Beispiele für Eingabeaufforderungs-/Abschlusspaare enthalten.
  • Das Dateiformat lautet JSONL.
  • Jede Zeile in der Datei JSONL hat das folgende Format:

    {"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n

  • Die Datei muss in einem OCI Object Storage-Bucket gespeichert werden.

JSONL-Format

JSONL

Eine JSONL-Datei enthält einen neuen JSON-Wert oder ein neues Objekt in jeder Zeile. Die Datei wird nicht wie eine normale JSON-Datei als Ganzes ausgewertet. Stattdessen wird jede Zeile so behandelt, als wäre sie eine separate JSON-Datei. Dieses Format ist ideal zum Speichern eines Eingabesets im JSON-Format.

Der OCI Generative AI-Service akzeptiert eine JSONL-Datei für die Optimierung benutzerdefinierter Modelle im folgenden Format.

{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"}
{"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"}
.
.
.
JSONL-Beispiel
{"prompt": "What is the capital of France?", "completion": "The capital of France is Paris."}
{"prompt": "What is the smallest state in the USA?", "completion": "The smallest state in the USA is Rhode Island."}
Hinweis

Stellen Sie sicher, dass jede JSONL-Datensatzdatei, die Sie für generative KI erstellen, die folgende Eigenschaften aufweist:
  • Die Datei ist UTF-8-codiert.
  • Jede Position enthält ein gültiges JSON-Objekt.
  • Jedes JSON-Objekt verfügt über zwei Eigenschaften: "prompt" und "completion".
  • Jedes JSON-Objekt wird in eine neue Zeile eingegeben, oder es folgt ein Zeilenvorschubzeichen (\n).

Nachdem Sie die Datei JSONL erstellt haben, fügen Sie Ihr Dataset zu einem Objektspeicher-Bucket hinzu.