モデル・デプロイメントGPU

GPUモデル・デプロイメントをトラブルシューティングします。

モデル・サイズのためブートストラップに失敗しました

通常、モデル・サイズは0より大きく、選択したシェイプ・メモリーより小さくなります。モデルのサイズを確認し、コンピュート・シェイプでアタッチされたGPUまたはCPUのメモリー・サイズの70%以上であることを確認します。

ランタイムCUDAメモリー外エラー

CUDA out of memory (OOM)エラーが発生した場合、ペイロードが大きすぎて、入力および出力テンソルを保存するのに十分な領域がGPUにないことが原因である可能性があります。パフォーマンスを最適化するには、サービス管理推論サーバーの使用時にアプリケーション環境変数のWEB_CONCURRENCY係数を調整します。

モデル・タイプ、フレームワーク、入力サイズおよび出力サイズの変動により、1または2などの小さい数値から始めると効果的です。データ・サイエンスは、スループットの増加のためにモデル・レプリカの最適数を推定しようとしますが、実行時に問題が発生する可能性があります。この場合、GPUでモデル・レプリカの数を管理するには、WEB_CONCURRENCYを調整します。データ・サイエンスによって計算されるデフォルトのWEB_CONCURRENCY係数は、モデル・デプロイメント・ログにあります。

BYOCコンテナを使用する場合、GPUにロードされるレプリカの数を減らすことをお薦めします。これらのオプションで十分でない場合は、より大きなGPUコンピュート・シェイプへのアップグレードが必要になる場合があります。