Trabajos
Solucione los problemas de los trabajos y las ejecuciones de trabajos.
No se puede crear el objeto de log en nombre del usuario Errores durante la creación de una ejecución de trabajo
Si falla la creación de la ejecución del trabajo y ve los siguientes detalles del ciclo de vida:
The specified log group is not found or not authorized. Cannot create log object on behalf of the user.
Ensure the log group is valid and the user has appropriate permissions configured
- OCID de grupo de logs incorrecto
-
Asegúrese de que el OCID del grupo de logs especificado en la configuración de creación de la ejecución del trabajo es correcto.
- Permisos incorrectos
-
Faltan permisos. El usuario que crea la ejecución del trabajo debe tener permisos para los grupos de logs y el contenido de registro. De esta forma, se garantiza que el usuario tenga acceso al grupo de logs y al objeto de log especificados. Además, para ayudar a crear un nuevo objeto de log en nombre del usuario cuando se activa
enableAutoLogCreation
.allow group <group-name> to manage log-groups in compartment <log-compartment-name>
allow group <group-name> to use log-content in compartment <log-compartment-name>
Los errores comunes son:
- Sólo se otorgan al usuario permisos
use
en los grupos de logs. El permisomanage
es necesario cuandoenableAutoLogCreation
está activado. - Permitir el grupo incorrecto. El grupo hace referencia al grupo en el que está el creador de la ejecución del trabajo. Si está creando ejecuciones de trabajos con principales de instancia, la política necesaria es:
dynamic group <instance-principal-dynamic-group-name>
Fallo al ejecutar su propio trabajo de contenedor al descargar la imagen
Al intentar crear una ejecución de traer su propio trabajo de contenedor, falla con errores al descargar la imagen, asegúrese de lo siguiente:
- Es posible que falte el host en la ruta a la imagen. El formato correcto para la ruta de imagen es
<region-key>.ocir.io/<tenancy-namespace>/<repository-name>:<tag>
. Un error común es perder la primera parte de la ruta (la URL del host). - La imagen de contenedor está en una región diferente a la ejecución del trabajo: los trabajos de Data Science no soportan la extracción de imágenes de OCIR entre regiones. Asegúrese de que la imagen de contenedor esté en la misma región que la ejecución del trabajo.
Por qué no es rápido iniciar una opción en la consola al crear un trabajo
La opción de inicio rápido solo está disponible en las regiones en las que está soportada. No todas las regiones y dominios admiten esta función. Por ejemplo, generalmente no está soportado en dominios Dedicated Region Cloud@Customer (DRCC).
Lo mismo se aplica para el punto final de API ListFastLaunchJobConfigs. La API responde con la lista de opciones para el inicio rápido, por lo que para las regiones en las que el inicio rápido no está soportado, la respuesta es un error o una lista vacía.
400 Error LimitExceeded
Al crear un trabajo o una ejecución de trabajo y este error se produce, significa que ha alcanzado los límites de servicio de OCI. Vea el vídeo sobre el aumento de los límites de servicio de Data Science para saber cómo enviar una solicitud para aumentar los límites de servicio.
Actualmente no hay capacidad para el error de unidad especificado
Si este error se produce al crear una ejecución de trabajo (como se describe en los detalles del ciclo de vida), no hay capacidad para crear la ejecución. Debe volver a intentarlo más tarde, probar en otras regiones o utilizar diferentes familias de unidades.
401 Error NotAuthenticated al realizar solicitudes a la API de Data Science
Este tipo de error no está relacionado por completo con el servicio Data Science. En su lugar, es un problema del lado del usuario al crear y firmar las solicitudes.
Si utiliza el principal de usuario para realizar la solicitud, algunos errores comunes son:
- Si tiene claves de API no válidas, consulte asignación de claves.
- Realizar una solicitud inmediatamente después de cargar una clave pública. La información de identidad necesita tiempo para propagarse por las regiones de un dominio. Normalmente, se produce dentro de los 5 minutos, aunque ocasionalmente se puede requerir más tiempo.
La integración de registro de ejecución de trabajo está activada aunque no se hayan generado logs
Para una ejecución de trabajo creada correctamente que ha alcanzado el estado IN_PROGRESS
, pero no aparecen logs en el objeto de log. Normalmente, esto ocurre cuando faltan políticas o son incorrectas. La ejecución del trabajo debe tener permisos para escribir en el log de ejecución del trabajo.
En primer lugar, defina un grupo dinámico para el recurso de ejecución de trabajo:
all { resource.type='datasciencejobrun', resource.compartment.id='<job-run-compartment-ocid>' }
A continuación, defina este acceso de grupo dinámico:
allow dynamic-group <job-runs-dynamic-group> to use log-content in compartment <log-compartment-name>
Algunos errores comunes son:
- Se ha especificado un compartimento incorrecto. Tenga en cuenta que el compartimento descrito en las políticas anteriores es diferente.
- Para la definición de grupo dinámico, es el compartimento de la ejecución del trabajo.
- Para la sentencia de política de acceso al contenido del log, es el compartimento del log.
- Definición del grupo dinámico mediante
compartment.id
en lugar deresource.compartment.id
. - Se ha incluido un tipo de recurso incorrecto en la definición del grupo dinámico. Probablemente, el grupo dinámico definido es para el recurso de sesión de bloc de notas y no incluye el recurso de ejecución de trabajo. La entidad de recurso
datasciencejobrun
se utiliza para escribir en logs para la integración de registro de ejecución de trabajo, por lo que se debe incluir en la definición del grupo dinámico.
La integración de registro de ejecución de trabajo está activada aunque aparecen truncados los logs
Los trabajos de Data Science soportan la integración con el servicio OCI Logging para el registro automático. Si los logs aparecen truncados o incompletos, es probable que se deban a los siguientes límites del servicio Logging:
- Cada entrada debe tener menos de 1 MB.
- Cualquier campo de datos de log no puede tener más de 10 000 caracteres.
Si los datos superan estos límites, la entrada de log se trunca durante la ingestión.
Las métricas de ejecución de trabajo no tienen datos
Si no ve las métricas de ejecución del trabajo durante o después del procesamiento del trabajo, es probable que no tenga configuradas las políticas correctas. Asegúrese de tener la siguiente política:
allow group <user-group-name> to read metrics in compartment <compartment-name>
El compartimento es el compartimento de la ejecución de trabajo.
Fallo de ejecución de artefacto de ejecución de trabajo con código de salida ___ Error
Esto significa que la ejecución del código falló con el código de salida indicado relacionado con el código. Active la integración de registro y asegúrese de que tiene suficientes sentencias de log en el código para depurar el problema.
El código de salida de ejecución de trabajo no está indicado
Los trabajos indican el código de salida de un fallo de ejecución de trabajo cuando se cierra. Esta información está disponible en el campo de detalle del ciclo de vida de la ejecución del trabajo. Esto está soportado para todas las ejecuciones de trabajos, incluidas las ejecuciones de trabajos de traer su propio contenedor.
Si observa que el código de salida con el que sabe que falló la ejecución del trabajo no está indicado correctamente, es probable que el código de salida no se propague correctamente.
Algunos errores comunes son:
- Si utiliza una secuencia de comandos de shell como punto de entrada, inicie otros archivos para ejecutar (otros archivos de python), la secuencia de comandos de shell debe capturar el código de salida de la ejecución de archivo interno y, a continuación, salir de la secuencia de comandos de shell con el código de salida capturado.
- Devolver excepciones puede no ser suficiente. La ejecución del archivo (o el contenedor para traer su propio contenedor) debe salir explícitamente con un código de salida. En Python, esto se realiza mediante
sys.exit(ERROR_CODE)
. - Utilizando un tipo incorrecto para el code value de salida. Normalmente, el tipo incorrecto utilizado es una cadena. Los códigos de salida deben ser números o enteros y estar comprendidos entre 1 y 255, como se describe en Trabajo con códigos de salida.
Punto de entrada no válido de ejecución de trabajo
Si se especifica JOB_RUN_ENTRYPOINT
en un archivo que no existe o el archivo no está en la ubicación especificada, se produce este error:
Job run bootstrap failure: invalid job run entry point (JOB_RUN_ENTRYPOINT).