Esta página ha sido traducida por una máquina.

Agrupaciones de Data Flow

Los agrupaciones de Data Flow se pueden utilizar en muchos lotes de Data Flow, Streaming y cargas de trabajo de sesión por parte de varios usuarios al mismo tiempo en el mismo inquilino.

Las agrupaciones ofrecen una amplia gama de funcionalidades para varios casos de uso, como:

  • Cargas de trabajo de producción grandes y sensibles al tiempo con muchos ejecutores que necesitan un tiempo de inicio más rápido en segundos.
  • Las cargas de trabajo de desarrollo dinámico no afectan a las cargas de trabajo de producción críticas porque sus recursos se pueden separar en distintos pools.
  • Controle el costo y el uso del desarrollo con la política de IAM que le permite ejecutar ejecuciones de Data Flow en pools específicos.
  • Es necesario procesar un gran número de ejecuciones de Data Flow con menos tiempo de inicio.
  • Poner en cola el flujo de datos se ejecuta en un pool para un uso eficaz de los recursos y el control de costos.
  • Las cargas de trabajo se ejecutan solo en una ventana de tiempo específica de un día que necesita el inicio automático de una agrupación en un programa y la parada automática cuando están inactivas.
  • Aplicación automática de parches de seguridad sin afectar a las ejecuciones ni a los recursos de un pool.

Configuración de Ejecuciones y Aplicaciones para Utilizar Pools

Utilice pools con aplicaciones y ejecuciones de Data Flow.

Desarrollo de Aplicaciones con un Pool

Al desarrollar aplicaciones, puede seleccionar un pool en cualquier estado excepto DELETED para agregarlo a una aplicación. Seleccione solo las unidades de controlador y ejecutor configuradas en el pool de Data Flow agregadas a la aplicación.

Ejecución de una Aplicación con un Pool

Al enviar una ejecución de Data Flow, seleccione un pool en cualquier estado excepto DELETED para agregar una aplicación. Seleccione solo las unidades de controlador y ejecutor configuradas en el pool de Data Flow agregadas a la ejecución.

Cola de Flujo de Datos con Pool

Puede enviar más ejecuciones a la cola del pool mientras otras ejecuciones utilizan los recursos informáticos del pool. Por defecto, las ejecuciones se ponen en cola durante 20 minutos para esperar a que los recursos de la agrupación estén disponibles. Puede configurar el tiempo de espera en la cola definiendo la configuración de Spark, spark.dataflow.acquireQuotaTimeout , en las opciones avanzadas de ejecución de Data Flow o aplicación. El valor de esta configuración se puede formatear como 1h | 30m | 45min, etc.

Mientras una ejecución de Data Flow espera en la cola que los recursos retenidos por las ejecuciones activas en el pool estén disponibles, se produce un inicio en frío.

Inicio del pool de flujos de datos desde la ejecución

Las agrupaciones de Data Flow paradas o aceptadas también se pueden iniciar mediante la ejecución de una ejecución con una agrupación.

Ejecuta la espera para que la agrupación se active para iniciarse. Se recomienda utilizar la función de cola de la agrupación para evitar timeouts de ejecución. Cancelar y detener la ejecución no detiene el pool.

Sustitución del ID de pool en una ejecución o aplicación

  • Al agregar un pool en una aplicación y ejecución, se utiliza el pool agregado a la ejecución.

  • Al agregar un pool en una aplicación, pero no en una ejecución, al ejecutar la ejecución, se utiliza el pool agregado a la aplicación.

  • Al agregar un pool en una ejecución, pero no en una aplicación, al ejecutar la ejecución, se utiliza el pool agregado a la ejecución.

  • Esto permite utilizar varios pools de E/S en distintas ejecuciones de la misma aplicación.

Límites

  • Los límites de Data Flow a nivel de inquilino y las cuotas de compartimento siguen siendo aplicables al crear o iniciar pools.
  • Máximo de 1000 nodos en total de todas las configuraciones de un pool.
  • No hay límites en el número de agrupaciones que se pueden crear y utilizar. Un administrador puede escribir una política de cuota de compartimento para limitar un usuario, grupo de usuarios o compartimento a fin de controlar la unidad y el número de nodos configurados en un pool.