生成AIでモデルを微調整するためのハイパーパラメータ
OCI生成AIは、事前トレーニング済のベース・モデルに基づく次のハイパーパラメータを使用して、各ベース・モデルを微調整します。
ヒント
各モデルのデフォルトのハイパーパラメータ値を使用してトレーニングを開始します。モデルの作成後、モデルの詳細ページの「モデル・パフォーマンス」で、「精度と損失」の値を確認します。結果に満足できない場合は、パフォーマンスが改善されるまで、より大きなデータセットまたは異なるハイパーパラメータを使用して別のモデルを作成します。
各モデルのデフォルトのハイパーパラメータ値を使用してトレーニングを開始します。モデルの作成後、モデルの詳細ページの「モデル・パフォーマンス」で、「精度と損失」の値を確認します。結果に満足できない場合は、パフォーマンスが改善されるまで、より大きなデータセットまたは異なるハイパーパラメータを使用して別のモデルを作成します。
meta.llama-3.1-70b-instruct
次の表に、OCI生成AIがLoRA
メソッドを使用してmeta.llama-3.1-70b-instruct
ベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
ハイパーパラメータ | 説明 | 有効範囲 | デフォルト値 |
---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1以上の整数 |
3 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.0002 |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 | 8から16までの整数 | 8 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 15 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.0001 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | 10に事前設定 | 10 |
LoRA r (LoRA メソッドの場合のみ) |
更新マトリックスの注意ディメンション(ランク)。ランクが低いほど、トレーニング可能なパラメータが少なく、更新マトリックスが小さくなります。 | 1から64までの整数 | 8 |
LoRA alpha (LoRA メソッドの場合のみ) |
LoRA スケーリングのalpha パラメータ。LoRA 重みマトリックスは、LoRA アルファをLoRA r で除算してスケーリングされます。alpha パラメータは、LoRA の重みを定義します。これは、新しい重みの数が少なく、モデルでトレーニングされる唯一の重みです。 |
1から128までの整数 | 8 |
LoRA dropout (LoRA メソッドの場合のみ) |
LoRA レイヤーのニューロンのドロップアウト確率。ドロップアウト法は、レイヤー内のニューロンをランダムに無視(ドロップアウト)することによって、オーバーフィットを防ぎます。10%の低下は、各ニューロンが落下する可能性が10%あることを意味します。 |
パーセントの1未満の数値(10%の場合は0.1など) | 0.1 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。meta.llama-3-70b-instruct
次の表に、OCI生成AIがmeta.llama-3-70b-instruct
(非推奨)ベース・モデルをLoRA
メソッドでトレーニングするために使用するハイパーパラメータの概要を示します。
ハイパーパラメータ | 説明 | 有効範囲 | デフォルト値 |
---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1以上の整数 |
3 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.0002 |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 | 8から16までの整数 | 8 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 15 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.0001 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | 10に事前設定 | 10 |
LoRA r (LoRA メソッドの場合のみ) |
更新マトリックスの注意ディメンション(ランク)。ランクが低いほど、トレーニング可能なパラメータが少なく、更新マトリックスが小さくなります。 | 1から64までの整数 | 8 |
LoRA alpha (LoRA メソッドの場合のみ) |
LoRA スケーリングのalpha パラメータ。LoRA 重みマトリックスは、LoRA アルファをLoRA r で除算してスケーリングされます。alpha パラメータは、LoRA の重みを定義します。これは、新しい重みの数が少なく、モデルでトレーニングされる唯一の重みです。 |
1から128までの整数 | 8 |
LoRA dropout (LoRA メソッドの場合のみ) |
LoRA レイヤーのニューロンのドロップアウト確率。ドロップアウト法は、レイヤー内のニューロンをランダムに無視(ドロップアウト)することによって、オーバーフィットを防ぎます。10%の低下は、各ニューロンが落下する可能性が10%あることを意味します。 |
パーセントの1未満の数値(10%の場合は0.1など) | 0.1 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。cohere.command-r-16k (非推奨)
次の表に、OCI生成AIがcohere.command-r-16k
(非推奨)ベース・モデルをT-Few
メソッドでトレーニングするために使用するハイパーパラメータの概要を示します。
ハイパーパラメータ | 説明 | 有効範囲 | デフォルト値 |
---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1 - 10の整数 |
1 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0.000005から0.1までの数値 | 0.01 |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 | 8から32の整数 | 16 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 0(無効)、1から16の整数(猶予期間を追加する場合) | 10 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0.001から0.1までの数値 | 0.001 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | チューニングできず、1に設定されています。 | 1 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。cohere.command-r-08-2024
次の表に、OCI生成AIがT-Few
メソッドを使用してcohere.command-r-16k
ベース・モデルをトレーニングするために使用するハイパーパラメータの概要を示します。
ハイパーパラメータ | 説明 | 有効範囲 | デフォルト値 |
---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1 - 10の整数 |
1 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0.000005から0.1までの数値 | 0.01 |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理するミニ・バッチ内のサンプル数。 | 8から32の整数 | 16 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 0(無効)、1から16の整数(猶予期間を追加する場合) | 10 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0.001から0.1までの数値 | 0.001 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | チューニングできず、1に設定されています。 | 1 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。cohere.command (非推奨)
次の表では、OCI生成AIがcohere.command
(非推奨)ベース・モデルのトレーニングに使用するハイパーパラメータについて説明し、T-Few
メソッドおよびVanilla
メソッドのデフォルト値を表示します。
ノート
cohere.command
は、米国中西部(シカゴ)リージョンでのみ使用できます。ハイパーパラメータ | 説明 | 有効範囲 | T-Fewのデフォルト値 | バニラのデフォルト値 |
---|---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1以上の整数 |
3 | 3 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.01 | 0.000006 (6e-7) |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8 | 8 | 8 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 6 | 6 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.01 | 0.01 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | 無効にするには0、ログに記録するトレーニング・ステップの合計には1の間の整数。 | 10 | 10 |
最後のレイヤーの数(Vanilla メソッドの場合のみ) |
Vanilla メソッドでファインチューニングする最終レイヤーの数。 |
1から15の整数 | 適用されません | 15 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。cohere.command-light (非推奨)
次の表では、OCI生成AIがcohere.command-light
(非推奨)ベース・モデルのトレーニングに使用するハイパーパラメータについて説明し、T-Few
メソッドおよびVanilla
メソッドのデフォルト値を表示します。
ノート
cohere.command-light
は、米国中西部(シカゴ)リージョンでのみ使用できます。ハイパーパラメータ | 説明 | 有効範囲 | T-Fewのデフォルト値 | バニラのデフォルト値 |
---|---|---|---|---|
合計トレーニング・エポック数 | トレーニングがトレーニング・データセット全体を反復する回数。たとえば、1 epoch は、モデルがトレーニング・データセット全体を使用して1回トレーニングされることを意味します。 |
1以上の整数 |
3 | 3 |
学習率 | エラー勾配に対してモデルの重みが更新される速度。 | 0から1.0までの数値 | 0.01 | 0.00001 |
トレーニング・バッチ・サイズ | モデルのパラメータを更新するまでに処理する、ミニ・バッチ内のサンプル数。 | 8から16までの整数 | 16 | 16 |
早期停止許容値 | 早期停止しきい値がトリガーされた後、評価サイクルを続行する猶予期間数を定義します。この回数の評価で、損失メトリックが早期停止しきい値を超えて改善されない場合、トレーニングは停止します。 | 無効にする場合は0、猶予期間を追加する場合は1以上の整数 | 6 | 6 |
早期停止しきい値 | 損失は、次のトレーニング・サイクルで減少すると改善されます。損失が十分に改善されない場合は、トレーニングを停止できます。早期停止カウンタをトリガーする評価損失の最小改善を定義します。損失が忍耐期間中に最小値を超えて改善されない場合、トレーニングは停止します。それ以外の場合は、トレーニングが続行され、カウンタがリセットされます。 | 0またはプラスの数値 | 0.01 | 0.01 |
ステップ内のログ・モデル・メトリック間隔 | ロギング当たりのステップ数。トレーニング喪失や学習率などのモデル・メトリックが記録されます。研修の損失が予想どおりに減少していない場合は、研修データまたは研修の速度を確認します。 | 無効にするには0、ログに記録するトレーニング・ステップの合計には1の間の整数。 | 10 | 10 |
最後のレイヤーの数(Vanilla メソッドの場合のみ) |
Vanilla メソッドでファインチューニングする最終レイヤーの数。 |
1から14の整数 | 適用されません | 14 |
次の式は、モデルが
totalTrainingSteps
パラメータを計算する方法を示しています。totalTrainingSteps = (totalTrainingEpochs * size(trainingDataset)) / trainingBatchSize
前述の式では、一部の端数処理計算は無視されます。