Daten in generativer KI trainieren
Im Folgenden finden Sie Richtlinien für die Erstellung von Trainingsdaten zur Feinabstimmung der vortrainierten Modelle in OCI Generative AI. Ein benutzerdefiniertes Modell kann mit nur einem Datensatz verfeinert werden, den das System automatisch in 80 ⁇ % Trainings- und 20 ⁇ % Validierungsdaten aufteilt. Der Datensatz muss eine JSONL-Datei mit mindestens 32 ⁇ Prompt/Completion-Paaren sein, wobei jede Zeile wie folgt formatiert ist: {"prompt": "<your prompt>", "completion": "<expected response>"}
. Speichern Sie die Datei in einem OCI Object Storage-Bucket, und referenzieren Sie sie beim Erstellen des benutzerdefinierten Modells.
Dataset-Anforderungen
Datasets für das Training benutzerdefinierter Modelle haben die folgenden Anforderungen:
- Pro benutzerdefiniertem Modell ist maximal ein Optimierungs-Dataset zulässig. Dieser Datensatz wird zufällig auf ein Verhältnis von 80:20 für Training und Validierung aufgeteilt.
- Jede Datei muss mindestens 32 Beispiele für Eingabeaufforderungs-/Abschlusspaare enthalten.
- Das Dateiformat lautet
JSONL
. - Jede Zeile in der Datei
JSONL
hat das folgende Format:{"prompt": "<a prompt>", "completion": "<expected response given the prompt>"}\n
- Die Datei muss in einem OCI Object Storage-Bucket gespeichert werden.
JSONL-Format
JSONL
-
Eine
JSONL
-Datei enthält einen neuenJSON
-Wert oder ein neues Objekt in jeder Zeile. Die Datei wird nicht wie eine normaleJSON
-Datei als Ganzes ausgewertet. Stattdessen wird jede Zeile so behandelt, als wäre sie eine separateJSON
-Datei. Dieses Format ist ideal zum Speichern eines Eingabesets imJSON
-Format.Der OCI Generative AI-Service akzeptiert eine
JSONL
-Datei für die Optimierung benutzerdefinierter Modelle im folgenden Format.{"prompt": "<first prompt>", "completion": "<expected completion given first prompt>"} {"prompt": "<second prompt>", "completion": "<expected completion given second prompt>"} . . .
JSONL
-Beispiel
Stellen Sie sicher, dass jede
JSONL
-Datensatzdatei, die Sie für generative KI erstellen, die folgende Eigenschaften aufweist: - Die Datei ist
UTF-8
-codiert. - Jede Position enthält ein gültiges
JSON
-Objekt. - Jedes
JSON
-Objekt verfügt über zwei Eigenschaften:"prompt"
und"completion"
. - Jedes
JSON
-Objekt wird in eine neue Zeile eingegeben, oder es folgt ein Zeilenvorschubzeichen (\n
).
Nachdem Sie die Datei JSONL erstellt haben, fügen Sie Ihr Dataset zu einem Objektspeicher-Bucket hinzu.