Solución de problemas de despliegues de modelos de GPU.
Fallo de inicialización debido al tamaño del modelo
En general, el tamaño del modelo es mayor que 0 y menor que la memoria de unidad seleccionada. Compruebe el tamaño del modelo y asegúrese de que tiene al menos menos menos del 70 % del tamaño de memoria de la GPU o CPU asociadas con la unidad de computación.
Error CUDA de tiempo de ejecución sin memoria 🔗
Si se produce un error CUDA out of memory (OOM), podría deberse a que una carga útil es demasiado grande y no hay suficiente espacio en la GPU para guardar el tensor de entrada y salida. Para optimizar el rendimiento, ajuste el factor WEB_CONCURRENCY en la variable de entorno de aplicación al utilizar un servidor de inferencia gestionado por servicios.
Empezar con un número más bajo, como 1 o 2, podría ser beneficioso debido a la variabilidad en los tipos de modelos, marcos y tamaños de entrada y salida. Aunque Data Science intenta estimar el mejor número de réplicas de modelos para aumentar el rendimiento, pueden producirse problemas en tiempo de ejecución. En este caso, la gestión del número de réplicas de modelo en una GPU se puede lograr ajustando WEB_CONCURRENCY. El factor WEB_CONCURRENCY por defecto calculado por Data Science se encuentra en los logs de despliegue de modelo.
Al utilizar un contenedor BYOC, recomendamos reducir el número de réplicas cargadas en la GPU. Si estas opciones no son suficientes, puede ser necesario actualizar a una unidad de computación de GPU más grande.