BYOC de despliegues de modelo

Solucionar problemas de despliegues de modelos BYOC.

No se puede acceder a la imagen de contenedor

Al crear, actualizar o activar operaciones de despliegue de modelos, Data Science verifica que existe una ruta de acceso autorizada para acceder a la imagen de contenedor en el arrendamiento. Si la verificación falla, puede deberse a que faltan políticas de principal de recurso, a una ruta de imagen incorrecta o a que la imagen no existe. Asegúrese de que las políticas, la ruta de acceso y la imagen especificadas sean correctas y vuelva a intentarlo.

Timeout de descarga de imagen de contenedor

Cada recurso de despliegue de modelo implica extraer la imagen de contenedor creada de OCI Registry a la instancia de Compute de despliegue, donde luego se ejecuta como un contenedor para inferir. La descarga de la imagen debe completarse en 20 minutos. Sin embargo, si el tamaño de la imagen es demasiado grande o se produce un tiempo de inactividad temporal del servicio en el registro, es posible que se agote el tiempo de espera de la operación, por lo que el tamaño de la imagen debe estar dentro de los 16 GB. Si la imagen es mayor que esta, considere la posibilidad de eliminar dependencias innecesarias para reducir el tamaño y, a continuación, vuelva a intentar la creación del despliegue.

Timeout de ejecución de contenedor

Al desplegar un modelo, la imagen de contenedor se transfiere del arrendamiento al arrendamiento del servicio Data Science y se utiliza para ejecutar el modelo como contenedor para inferir. El contenedor tiene un tiempo de espera definido de 10 minutos para ejecutarse, por lo que es crucial asegurarse de que el contenedor de servicio de inferencia se inicie dentro de este período de tiempo.

Antes del despliegue, es importante validar el contenedor localmente y probar que las llamadas /predict y /health se realizan correctamente.

Durante el despliegue, también es crucial validar que no se produzcan errores durante la ejecución del contenedor, la llamada de predicción o la llamada de comprobación del sistema. Además, asegúrese de que la salida está activada durante la creación del recurso de despliegue de modelo si la lógica de inferencia que se ejecuta dentro del contenedor necesita acceder a Internet. Si no lo hace, se puede producir un error de inicialización de datos del modelo. Para probar este escenario, intente desactivar Internet durante las pruebas locales.

Asegúrese de que se asigna suficiente memoria para cargar e inferir el modelo a fin de evitar problemas de memoria insuficiente.

Consulte las mejores prácticas de BYOC y Prueba del contenedor para obtener más información.

No se puede iniciar el contenedor

Puede haber varios motivos por los que un contenedor no se puede iniciar. Para solucionar esto, es mejor identificar y corregir el fallo durante la fase de prueba local. A continuación se muestran algunas posibles razones y correcciones:

La imagen de contenedor debe tener instalado el paquete curl para que la política HEALTHCHECK de Docker se realice correctamente. Si falta este paquete, el contenedor no se inicia.
Los parámetros de línea de comandos de Docker CMD o Entrypoint se deben proporcionar mediante la API o el archivo Dockerfile para iniciar el servidor web. Si estos parámetros no son válidos, el contenedor no se inicia.

No se ha podido acceder al modelo

Durante el inicialización de datos, la instancia de Compute despliega el artefacto de modelo y monta los archivos en el directorio /opt/ds/model/deployed_model dentro del contenedor en ejecución en modo de solo lectura.

Los archivos comprimidos de esta ruta se utilizan en la lógica de puntuación. Comprimiendo un juego de archivos (incluidos el modelo de aprendizaje automático y la lógica de puntuación) o una carpeta que contenga un juego de archivos que tengan una ruta de ubicación diferente al modelo de aprendizaje automático dentro del contenedor.

Asegúrese de que se utiliza la ruta correcta al cargar el modelo en la lógica de puntuación.