Pipelines
Un pipeline de aprendizaje automático (ML) de Data Science es un recurso que define un flujo de trabajo de tareas, denominadas pasos.
El aprendizaje automático es a menudo un proceso complejo, que implica varios pasos que trabajan juntos en un flujo de trabajo, para crear y servir un modelo de aprendizaje automático. Estos pasos suelen incluir: adquisición y extracción de datos, preparación de datos para el aprendizaje automático, featurización, entrenamiento de un modelo (incluida la selección de algoritmos y el ajuste de hiperparámetros), evaluación de modelos e implementación de modelos.
Los pasos del pipeline pueden tener dependencias de otros pasos para crear el flujo de trabajo. Cada uno de los pasos es discreto, por lo que ofrece flexibilidad para mezclar diferentes entornos e incluso diferentes idiomas de codificación en el mismo pipeline.
Un pipeline (flujo de trabajo) típico incluye estos pasos:

Este ciclo de vida de aprendizaje automático se ejecuta como un pipeline de aprendizaje automático continuo y repetible.
Conceptos del pipeline
Un pipeline podría parecerse al siguiente flujo de trabajo:

En un contexto de aprendizaje automático, los pipelines suelen proporcionar un flujo de trabajo para la importación de datos, la transformación de datos, el entrenamiento de modelos y la evaluación de modelos. Los pasos del pipeline se pueden ejecutar en secuencia o en paralelo, siempre que estén creando un DDG.
- Pipeline
-
Un recurso que contiene todos los pasos y sus dependencias (el flujo de trabajo de DAG). Puede definir configuraciones por defecto para la infraestructura, los logs y otros valores que se utilizarán en los recursos de pipeline. Estos valores por defecto se utilizan si no se definen en los pasos del pipeline.
También puede editar parte de la configuración del pipeline después de crearla, como el nombre, el log y las variables de entorno personalizadas.
- Paso de pipeline
-
Tarea que se va a ejecutar en un pipeline. El paso contiene el artefacto del paso, la infraestructura (unidad de computación, volumen en bloque) que se va a utilizar al ejecutar, la configuración del log, las variables de entorno, etc.
Un paso del pipeline puede ser de uno de estos tipos:
- Un script (archivos de código). Python, Bash y Java están soportados) y una configuración para ejecutarlo.
-
Un trabajo existente en Data Science identificado por su OCID.
- Artefacto de paso
-
Necesario al trabajar con un tipo de paso de script. Un artefacto es todo el código que se debe utilizar para ejecutar el paso. El artefacto en sí debe ser un solo archivo. Sin embargo, puede ser un archivo comprimido (zip) que incluye varios archivos. Puede definir el archivo específico que se va a ejecutar al ejecutar el paso.
Todos los pasos de script de un pipeline deben tener un artefacto para que el pipeline esté en estado ACTIVO para que se pueda ejecutar.
- DAG
-
Flujo de trabajo de pasos, definido por las dependencias de cada paso en otros pasos del pipeline. Las dependencias crean un flujo de trabajo lógico o gráfico (debe ser acíclico). El pipeline se esfuerza por ejecutar pasos en paralelo para optimizar el tiempo de finalización del pipeline, a menos que las dependencias exijan que los pasos se ejecuten secuencialmente. Por ejemplo, se debe completar el entrenamiento antes de evaluar el modelo, pero se pueden entrenar varios modelos en paralelo para competir por el mejor modelo.
- Ejecución de pipeline
-
Instancia de ejecución de un pipeline. Cada ejecución de pipeline incluye sus ejecuciones de pasos. Se puede configurar una ejecución de pipeline para sustituir algunos de los valores por defecto del pipeline antes de iniciar la ejecución.
- Ejecución de paso de pipeline
-
Instancia de ejecución de un paso de pipeline. La configuración de la ejecución de paso se toma primero de la ejecución de pipeline cuando se define, o de la definición de pipeline secundariamente.
- Estado del ciclo de vida del pipeline
-
A medida que se crea, construye e incluso suprime el pipeline, puede estar en varios estados. Después de la creación del pipeline, el pipeline se encuentra en el estado CREATING y no se puede ejecutar hasta que todos los pasos tengan un artefacto o un trabajo que ejecutar, el pipeline cambia al estado ACTIVE.
- Acceso a recursos de OCI
-
Los pasos del pipeline pueden acceder a todos los recursos de OCI de un arrendamiento, siempre que haya una política que lo permita. Puede ejecutar pipelines en datos de ADW o de Object Storage. Además, puede utilizar almacenes para proporcionar una forma segura de autenticarse en recursos de terceros. Los pasos del pipeline pueden acceder a orígenes externos si se ha configurado la VCN adecuada.