生成AIでモデルを微調整するためのハイパーパラメータ

OCI生成AIは、事前トレーニング済のベース・モデルに基づく次のハイパーパラメータを使用して、各ベース・モデルを微調整します。

ヒント

各モデルのデフォルトのハイパーパラメータ値を使用してトレーニングを開始します。モデルの作成後、モデルの詳細ページの「モデル・パフォーマンス」で、「精度と損失」の値を確認します。結果に満足できない場合は、パフォーマンスが改善されるまで、より大きなデータセットまたは異なるハイパーパラメータを使用して別のモデルを作成します。
meta.llama-3.1-70b-instruct

次の表に、OCI生成AIがLoRAメソッドを使用してmeta.llama-3.1-70b-instructベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。

ハイパーパラメータ 説明 有効範囲 デフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1以上の整数

3
学習率 エラー勾配に対してモデルの重みが更新される速度。 0から1.0までの数値 0.0002
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 8から16までの整数 8
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 無効にする場合は0、猶予期間を追加する場合は1以上の整数 15
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0またはプラスの数値 0.0001
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 10に事前設定 10
LoRA r (LoRAメソッドの場合のみ) 更新マトリックスの注意ディメンション(ランク)。ランクが低いほど、トレーニング可能なパラメータが少なく、更新マトリックスが小さくなります。 1から64までの整数 8
LoRA alpha (LoRAメソッドの場合のみ) LoRAスケーリングのalphaパラメータ。LoRA重みマトリックスは、LoRAアルファをLoRA rで除算してスケーリングされます。alphaパラメータは、LoRAの重みを定義します。これは、新しい重みの数が少なく、モデルでトレーニングされる唯一の重みです。 1から128までの整数 8
LoRA dropout (LoRAメソッドの場合のみ) LoRAレイヤーのニューロンのドロップアウト確率。ドロップアウト法は、レイヤー内のニューロンをランダムに無視(ドロップアウト)することによって、オーバーフィットを防ぎます。10%の低下は、各ニューロンが落下する可能性が10%あることを意味します。 パーセントの1未満の数値(10%の場合は0.1など) 0.1
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。
meta.llama-3-70b-instruct

次の表に、OCI生成AIがmeta.llama-3-70b-instruct (非推奨)ベース・モデルをLoRAメソッドでトレーニングするために使用するハイパーパラメータの概要を示します。

ハイパーパラメータ 説明 有効範囲 デフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1以上の整数

3
学習率 エラー勾配に対してモデルの重みが更新される速度。 0から1.0までの数値 0.0002
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 8から16までの整数 8
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 無効にする場合は0、猶予期間を追加する場合は1以上の整数 15
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0またはプラスの数値 0.0001
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 10に事前設定 10
LoRA r (LoRAメソッドの場合のみ) 更新マトリックスの注意ディメンション(ランク)。ランクが低いほど、トレーニング可能なパラメータが少なく、更新マトリックスが小さくなります。 1から64までの整数 8
LoRA alpha (LoRAメソッドの場合のみ) LoRAスケーリングのalphaパラメータ。LoRA重みマトリックスは、LoRAアルファをLoRA rで除算してスケーリングされます。alphaパラメータは、LoRAの重みを定義します。これは、新しい重みの数が少なく、モデルでトレーニングされる唯一の重みです。 1から128までの整数 8
LoRA dropout (LoRAメソッドの場合のみ) LoRAレイヤーのニューロンのドロップアウト確率。ドロップアウト法は、レイヤー内のニューロンをランダムに無視(ドロップアウト)することによって、オーバーフィットを防ぎます。10%の低下は、各ニューロンが落下する可能性が10%あることを意味します。 パーセントの1未満の数値(10%の場合は0.1など) 0.1
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。
cohere.command-r-16k (非推奨)

次の表に、OCI生成AIがcohere.command-r-16k (非推奨)ベース・モデルをT-Fewメソッドでトレーニングするために使用するハイパーパラメータの概要を示します。

ハイパーパラメータ 説明 有効範囲 デフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1 - 10の整数

1
学習率 エラー勾配に対してモデルの重みが更新される速度。 0.000005から0.1までの数値 0.01
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 8から32の整数 16
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 0(無効)、1から16の整数(猶予期間を追加する場合) 10
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0.001から0.1までの数値 0.001
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 チューニングできず、1に設定されています。 1
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。
cohere.command-r-08-2024

次の表に、OCI生成AIがT-Fewメソッドを使用してcohere.command-r-16kベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。

ハイパーパラメータ 説明 有効範囲 デフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1 - 10の整数

1
学習率 エラー勾配に対してモデルの重みが更新される速度。 0.000005から0.1までの数値 0.01
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 8から32の整数 16
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 0(無効)、1から16の整数(猶予期間を追加する場合) 10
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0.001から0.1までの数値 0.001
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 チューニングできず、1に設定されています。 1
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。
cohere.command (非推奨)

次の表では、OCI生成AIがcohere.command (非推奨)ベース・モデルのトレーニングに使用するハイパーパラメータについて説明し、T-FewメソッドおよびVanillaメソッドのデフォルト値を表示します。

ノート

cohere.commandは、米国中西部(シカゴ)リージョンでのみ使用できます。
ハイパーパラメータ 説明 有効範囲 T-Fewのデフォルト値 バニラのデフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1以上の整数

3 3
学習率 エラー勾配に対してモデルの重みが更新される速度。 0から1.0までの数値 0.01 0.000006 (6e-7)
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 8 8 8
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 無効にする場合は0、猶予期間を追加する場合は1以上の整数 6 6
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0またはプラスの数値 0.01 0.01
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 無効にするには0、ログに記録するトレーニング・ステップの合計には1の間の整数。 10 10
最後のレイヤーの数(Vanillaメソッドの場合のみ) Vanillaメソッドでファインチューニングする最終レイヤーの数。 1から15の整数 適用されません 15
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。
cohere.command-light (非推奨)

次の表では、OCI生成AIがcohere.command-light (非推奨)ベース・モデルのトレーニングに使用するハイパーパラメータについて説明し、T-FewメソッドおよびVanillaメソッドのデフォルト値を表示します。

ノート

cohere.command-lightは、米国中西部(シカゴ)リージョンでのみ使用できます。
ハイパーパラメータ 説明 有効範囲 T-Fewのデフォルト値 バニラのデフォルト値
合計トレーニング・エポック数 トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epochは、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。

1以上の整数

3 3
学習率 エラー勾配に対してモデルの重みが更新される速度。 0から1.0までの数値 0.01 0.00001
トレーニング・バッチ・サイズ モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 8から16までの整数 16 16
早期停止許容値 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 無効にする場合は0、猶予期間を追加する場合は1以上の整数 6 6
早期停止しきい値 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 0またはプラスの数値 0.01 0.01
ステップ内のログ・モデル・メトリック間隔 ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 無効にするには0、ログに記録するトレーニング・ステップの合計には1の間の整数。 10 10
最後のレイヤーの数(Vanillaメソッドの場合のみ) Vanillaメソッドでファインチューニングする最終レイヤーの数。 1から14の整数 適用されません 14
次の式は、モデルがtotalTrainingStepsパラメータを計算する方法を示しています。
totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。