Hyperparameter für die Feinabstimmung eines Modells in generativer KI
OCI Generative AI optimiert jedes Basismodell mit den folgenden Hyperparametern, die auf dem vortrainierten Basismodell basieren.
Beginnen Sie mit dem Training jedes Modells mit seinen Standard-Hyperparameterwerten. Nachdem das Modell erstellt wurde, prüfen Sie auf der Detailseite des Modells unter Modellperformance die Werte für Genauigkeit und Verlust. Wenn Sie mit den Ergebnissen nicht zufrieden sind, erstellen Sie ein anderes Modell mit einem größeren Dataset oder unterschiedlichen Hyperparametern, bis sich die Performance verbessert.
In der folgenden Tabelle werden die Hyperparameter beschrieben, die OCI Generative AI zum Trainieren eines meta.llama-3.3-70b-instruct
-Basismodells mit der Methode LoRA
verwendet.
Hyperparameter | Beschreibung | gültiger Bereich | Standardwert |
---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell durch einmaliges Verwenden des gesamten Trainings-Datasets trainiert wird. |
1 oder eine höhere Ganzzahl |
3 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0 und 1.0 | 0 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Mini-Batch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 16 | 8 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Nachfristen zum Fortsetzen des Bewertungszyklus, nachdem der Schwellenwert für das frühe Stoppen ausgelöst wurde. Das Training stoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den Schwellenwert für das frühe Stoppen hinaus verbessert. | 0 zum Deaktivieren und 1 oder eine höhere Ganzzahl zum Hinzufügen einer Kulanzfrist | 15 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn der Verlust nicht genug verbessert, können Sie das Training stoppen. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduldszeit nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt und der Zähler wird zurückgesetzt. | 0 oder eine positive Zahl | 0 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellkennzahlen wie Trainingsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | Auf 10 voreingestellt | 10 |
LoRA r (nur für Methode LoRA ) |
Die Aufmerksamkeitsdimension (Rang) der Aktualisierungsmatrizen. Ein niedrigerer Rang führt zu kleineren Update-Matrizen mit weniger trainierbaren Parametern. | Eine Ganzzahl zwischen 1 und 64 | 8 |
LoRA alpha (nur für Methode LoRA ) |
Der Parameter alpha für die LoRA -Skalierung. Die Gewichtsmatrizen LoRA werden durch Division von LoRA alpha durch LoRA r skaliert. Der Parameter alpha definiert die Gewichtungen LoRA , bei denen es sich um eine kleinere Anzahl neuer Gewichtungen handelt und die einzigen Gewichtungen sind, die im Modell trainiert werden. |
Eine Ganzzahl zwischen 1 und 128 | 8 |
LoRA dropout (nur für Methode LoRA ) |
Die Ausfallwahrscheinlichkeit für Neuronen in den LoRA -Schichten. Das Dropout-Verfahren verhindert ein Überfitting durch zufälliges Ignorieren (Auslassen) von Neuronen innerhalb einer Schicht. Ein 10% Dropout bedeutet, dass jedes Neuron eine 10%ige Chance hat, fallen gelassen zu werden. |
Eine Dezimalzahl kleiner als 1 für den Prozentsatz, z.B. 0,1 für 10% | 0,1 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, die OCI Generative AI zum Trainieren eines meta.llama-3.1-70b-instruct
-Basismodells mit der Methode LoRA
verwendet.
Hyperparameter | Beschreibung | gültiger Bereich | Standardwert |
---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell durch einmaliges Verwenden des gesamten Trainings-Datasets trainiert wird. |
1 oder eine höhere Ganzzahl |
3 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0 und 1.0 | 0 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Mini-Batch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 16 | 8 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Nachfristen zum Fortsetzen des Bewertungszyklus, nachdem der Schwellenwert für das frühe Stoppen ausgelöst wurde. Das Training stoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den Schwellenwert für das frühe Stoppen hinaus verbessert. | 0 zum Deaktivieren und 1 oder eine höhere Ganzzahl zum Hinzufügen einer Kulanzfrist | 15 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn der Verlust nicht genug verbessert, können Sie das Training stoppen. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduldszeit nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt und der Zähler wird zurückgesetzt. | 0 oder eine positive Zahl | 0 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellkennzahlen wie Trainingsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | Voreinstellung auf 10 | 10 |
LoRA r (nur für Methode LoRA ) |
Die Aufmerksamkeitsdimension (Rang) der Aktualisierungsmatrizen. Ein niedrigerer Rang führt zu kleineren Aktualisierungsmatrizen mit weniger trainierbaren Parametern. | Eine Ganzzahl zwischen 1 und 64 | 8 |
LoRA alpha (nur für Methode LoRA ) |
Der Parameter alpha für die LoRA -Skalierung. Die LoRA -Gewichtsmatrizen werden skaliert, indem LoRA Alpha durch LoRA r dividiert wird. Der Parameter alpha definiert die LoRA -Gewichtungen, bei denen es sich um eine kleinere Anzahl neuer Gewichtungen handelt und es sich um die einzigen Gewichtungen handelt, die im Modell trainiert werden. |
Eine Ganzzahl zwischen 1 und 128 | 8 |
LoRA dropout (nur für Methode LoRA ) |
Die Abbruchwahrscheinlichkeit für Neuronen in den LoRA -Schichten. Die Dropout-Methode verhindert eine Überanpassung, indem Neuronen innerhalb einer Schicht zufällig ignoriert (abgeworfen) werden. Ein 10% Dropout bedeutet, dass jedes Neuron eine 10% Chance hat, fallen gelassen zu werden. |
Eine Dezimalzahl kleiner als 1 für den Prozentsatz, z.B. 0,1 für 10% | 0,1 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, mit denen OCI Generative AI ein meta.llama-3-70b-instruct
-(deprecated-)Basismodell mit der Methode LoRA
trainiert.
Hyperparameter | Beschreibung | gültiger Bereich | Standardwert |
---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell durch einmaliges Verwenden des gesamten Trainings-Datasets trainiert wird. |
1 oder eine höhere Ganzzahl |
3 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0 und 1.0 | 0 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Mini-Batch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 16 | 8 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Nachfristen zum Fortsetzen des Bewertungszyklus, nachdem der Schwellenwert für das frühe Stoppen ausgelöst wurde. Das Training stoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den Schwellenwert für das frühe Stoppen hinaus verbessert. | 0 zum Deaktivieren und 1 oder eine höhere Ganzzahl zum Hinzufügen einer Kulanzfrist | 15 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn der Verlust nicht genug verbessert, können Sie das Training stoppen. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduldszeit nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt und der Zähler wird zurückgesetzt. | 0 oder eine positive Zahl | 0 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellkennzahlen wie Trainingsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | Voreinstellung auf 10 | 10 |
LoRA r (nur für Methode LoRA ) |
Die Aufmerksamkeitsdimension (Rang) der Aktualisierungsmatrizen. Ein niedrigerer Rang führt zu kleineren Update-Matrizen mit weniger trainierbaren Parametern. | Eine Ganzzahl zwischen 1 und 64 | 8 |
LoRA alpha (nur für Methode LoRA ) |
Der Parameter alpha für die LoRA -Skalierung. Die LoRA -Gewichtsmatrizen werden skaliert, indem LoRA Alpha durch LoRA r dividiert wird. Der Parameter alpha definiert die LoRA -Gewichtungen. Dabei handelt es sich um eine kleinere Anzahl neuer Gewichtungen. Sie sind die einzigen Gewichtungen, die im Modell trainiert werden. |
Eine Ganzzahl zwischen 1 und 128 | 8 |
LoRA dropout (nur für Methode LoRA ) |
Die Abbruchwahrscheinlichkeit für Neuronen in den LoRA -Schichten. Die Dropout-Methode verhindert eine Überanpassung, indem Neuronen innerhalb einer Schicht zufällig ignoriert (abgeworfen) werden. Ein 10% Dropout bedeutet, dass jedes Neuron eine 10% Chance hat, fallen gelassen zu werden. |
Eine Dezimalzahl unter 1 für Prozentsatz, z.B. 0,1 für 10% | 0,1 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, mit denen OCI Generative AI ein cohere.command-r-16k
-(deprecated-)Basismodell mit der Methode T-Few
trainiert.
Hyperparameter | Beschreibung | gültiger Bereich | Standardwert |
---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell durch einmaliges Verwenden des gesamten Trainings-Datasets trainiert wird. |
Eine Ganzzahl zwischen 1 und 10 |
1 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0.000000005 und 0.1 | 0,01 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Mini-Batch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 32 | 16 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Nachfristen zum Fortsetzen des Bewertungszyklus, nachdem der Schwellenwert für das frühe Stoppen ausgelöst wurde. Das Training stoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den Schwellenwert für das frühe Stoppen hinaus verbessert. | 0 zum Deaktivieren und eine Ganzzahl zwischen 1 und 16 zum Hinzufügen einer Kulanzfrist | 10 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn der Verlust nicht genug verbessert, können Sie das Training stoppen. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduldszeit nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt und der Zähler wird zurückgesetzt. | Eine Zahl zwischen 0.001 und 0.1 | 0,001 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellkennzahlen wie Trainingsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | Kann nicht optimiert werden und ist auf 1 gesetzt. | 1 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, die OCI Generative AI zum Trainieren eines cohere.command-r-16k
-Basismodells mit der Methode T-Few
verwendet.
Hyperparameter | Beschreibung | Gültiger Bereich | Standardwert |
---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell einmal mit dem gesamten Trainings-Dataset trainiert wird. |
Eine Ganzzahl zwischen 1 und 10 |
1 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0.000005 und 0.1 | 0,01 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Minibatch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 32 | 16 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Verlängerungsfristen, um den Evaluierungszyklus fortzusetzen, nachdem der Schwellenwert für vorzeitiges Stoppen ausgelöst wurde. Das Training wird gestoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den frühen Stoppschwellenwert hinaus verbessert. | 0 zum Deaktivieren und eine Ganzzahl zwischen 1 und 16 zum Hinzufügen einer Kulanzfrist | 10 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn sich der Verlust nicht genug verbessert, können Sie das Training beenden. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühzeitigen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduld nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt, und der Zähler wird zurückgesetzt. | Eine Zahl zwischen 0.001 und 0.1 | 0,001 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellmetriken wie Schulungsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | Kann nicht optimiert werden und ist auf 1 gesetzt. | 1 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, mit denen OCI Generative AI das Basismodell cohere.command
(veraltet) trainiert, und die Standardwerte für die Methoden T-Few
und Vanilla
werden angezeigt.
Die
cohere.command
ist nur in der Region Mittelwesten der USA (Chicago) verfügbar.Hyperparameter | Beschreibung | Gültiger Bereich | Standardwert für Wenige Tage | Standardwert für Vanille |
---|---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell einmal mit dem gesamten Trainings-Dataset trainiert wird. |
1 oder eine höhere Ganzzahl |
3 | 3 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0 und 1.0 | 0,01 | 0.00006 (6e-7) |
Trainingsbatchgröße | Die Anzahl der Samples in einem Minibatch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | 8 | 8 | 8 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Verlängerungsfristen, um den Evaluierungszyklus fortzusetzen, nachdem der Schwellenwert für vorzeitiges Stoppen ausgelöst wurde. Das Training wird gestoppt, wenn sich die Verlustmetrik bei so vielen Auswertungen nicht über den frühen Stoppschwellenwert hinaus verbessert. | 0 zum Deaktivieren und 1 oder eine höhere Ganzzahl zum Hinzufügen einer Kulanzfrist | 6 | 6 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn sich der Verlust nicht genug verbessert, können Sie das Training beenden. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühzeitigen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduld nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt, und der Zähler wird zurückgesetzt. | 0 oder eine positive Zahl | 0,01 | 0,01 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellmetriken wie Schulungsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | 0 zu deaktivieren und eine Ganzzahl zwischen 1 und den gesamten zu protokollierenden Schulungsschritten. | 10 | 10 |
Anzahl der letzten Schichten (nur für Methode Vanilla ) |
Die Anzahl der letzten Layer, die in der Methode Vanilla optimiert werden sollen. |
Eine Ganzzahl zwischen 1 und 15 | Nicht anwendbar | 15 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.In der folgenden Tabelle werden die Hyperparameter beschrieben, mit denen OCI Generative AI das Basismodell cohere.command-light
(veraltet) trainiert, und die Standardwerte für die Methoden T-Few
und Vanilla
werden angezeigt.
Die
cohere.command-light
ist nur in der Region Mittelwesten der USA (Chicago) verfügbar.Hyperparameter | Beschreibung | Gültiger Bereich | Standardwert für Wenige Tage | Standardwert für Vanille |
---|---|---|---|---|
Trainingsepochen gesamt | Gibt an, wie oft das Training durch das gesamte Trainings-Dataset iteriert. Beispiel: 1 epoch bedeutet, dass das Modell einmal mit dem gesamten Trainingsset trainiert wird. |
1 oder eine höhere Ganzzahl |
3 | 3 |
Lernrate | Die Geschwindigkeit, mit der die Modellgewichtungen dem Fehlergradienten gegenüber aktualisiert werden. | Eine Zahl zwischen 0 und 1.0 | 0,01 | 0 |
Trainingsbatchgröße | Die Anzahl der Samples in einem Minibatch, die durchlaufen werden sollen, bevor die Parameter des Modells aktualisiert werden. | Eine Ganzzahl zwischen 8 und 16 | 16 | 16 |
Wartezeit für frühzeitiges Stoppen | Definiert die Anzahl der Verlängerungsfristen, um den Evaluierungszyklus fortzusetzen, nachdem der Schwellenwert für vorzeitiges Stoppen ausgelöst wurde. Das Training wird gestoppt, wenn sich die Verlustmetrik für diese oft durchgeführte Auswertung nicht über den Schwellenwert für vorzeitiges Stoppen hinaus verbessert. | 0 zum Deaktivieren und 1 oder eine höhere Ganzzahl zum Hinzufügen einer Kulanzfrist | 6 | 6 |
Schwellenwert für frühzeitiges Stoppen | Der Verlust verbessert sich, wenn er im nächsten Trainingszyklus abnimmt. Wenn sich der Verlust nicht genug verbessert, können Sie das Training beenden. Definieren Sie die minimale Verbesserung des Bewertungsverlusts, die den frühzeitigen Stoppzähler auslösen soll. Wenn sich der Verlust während der Geduld nicht über den Mindestwert hinaus verbessert, stoppt das Training. Andernfalls wird das Training fortgesetzt, und der Zähler wird zurückgesetzt. | 0 oder eine positive Zahl | 0,01 | 0,01 |
Modellmetrikintervall schrittweise protokollieren | Die Anzahl der Schritte pro Logging. Modellmetriken wie Schulungsverlust und Lernrate werden protokolliert. Wenn der Trainingsverlust nicht wie erwartet abnimmt, überprüfen Sie die Trainingsdaten oder die Trainingsrate. | 0 zu deaktivieren und eine Ganzzahl zwischen 1 und den gesamten zu protokollierenden Schulungsschritten. | 10 | 10 |
Anzahl der letzten Schichten (nur für Methode Vanilla ) |
Die Anzahl der letzten Layer, die in der Methode Vanilla optimiert werden sollen. |
Eine Ganzzahl zwischen 1 und 14 | Nicht anwendbar | 14 |
totalTrainingSteps
berechnet.totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
In der vorherigen Gleichung ignoriert das Modell einige Rundungsberechnungen.