Visión general de linaje de datos

El linaje de datos indica el recorrido que realizan los datos a medida que fluyen de los orígenes de datos al consumo. A través de metadatos, los consumidores de datos pueden comprender y visualizar las transformaciones por las que han pasado los datos en los pipelines de datos.

Orígenes de datos admitidos para linaje

En Data Catalog, el linaje está soportado para los siguientes orígenes de datos:

  • Base de datos Apache Hive
  • Autonomous AI Lakehouse
  • Autonomous AI Transaction Processing
  • IBM DB2
  • Base de Datos Microsoft Azure SQL
  • Base de datos Microsoft SQL Server
  • Base de datos MySQL Database
  • Oracle Database
  • Oracle Object Storage
  • PostgreSQL

Linaje de los Datos

En Data Catalog, puede ver el linaje de las entidades y sus atributos. Por ejemplo, linaje a nivel de tabla y columna. El linaje está disponible para los datos procesados por las aplicaciones de Data Integration, las aplicaciones de Data Flow o las aplicaciones personalizadas. Cada uno requiere la configuración como se explica en las siguientes secciones.

Linaje de datos para integración de datos

Para ver el linaje en Data Catalog, debe:

Cuando Data Catalog recupera la información de linaje del espacio de trabajo de Data Integration, contiene información sobre los activos de datos y las tareas ejecutadas en las aplicaciones. En función de la información de linaje, si no hay ningún activo de datos correspondiente en el catálogo, Data Catalog crea ese activo de datos. El nombre de este activo de datos es el mismo que el definido en el espacio de trabajo de Data Integration.

Al trabajar con el linaje de datos, tenga en cuenta lo siguiente:
  • El linaje solo está disponible para los datos procesados por tareas de integración y tareas del cargador de datos en el espacio de trabajo de integración de datos.

  • El linaje de nivel de columna no está disponible para tareas con operadores de simplificación, dinámica y función.

Linaje de datos para flujo de datos

Para ver el linaje de la aplicación en Data Flow, seleccione la casilla de control Activar recopilación de linaje de datos en la configuración de la aplicación en el espacio de trabajo de OCI Data Flow para generar metadatos de linaje. Se crea automáticamente un activo de datos en Data Catalog para el servicio Data Flow en el mismo arrendamiento la primera vez que los metadatos de linaje se transfieren al catálogo. El nombre de este activo de datos tiene el formato OCI Data Flow – <tenancy name> . Consulte Políticas de IAM necesarias para el activo de datos de Data Flow y Data Flow.

Para capturar el linaje de las aplicaciones que se ejecutan en Data Flow en un arrendamiento independiente, debe crear un activo de datos para ese servicio de Data Flow. Asegúrese de definir las siguientes políticas.

El activo de datos de Data Flow se actualiza a intervalos predefinidos a medida que el linaje se actualiza en Data Flow.

Ingestión de linaje personalizado

Data Catalog le permite ampliar la capacidad de linaje proporcionando metadatos de linaje para los datos procesados/transformados en aplicaciones que Data Catalog no soporta de forma nativa para la recopilación de linaje. Esto se logra mediante la API ImportLineage.

  • Creación de activos de datos para proveedor de linaje personalizado: debe crear un activo de datos para cada proveedor de linaje personalizado. Es importante tener en cuenta la clave del activo de datos de dichos activos de datos, ya que se utilizan para identificar el proveedor de linaje en la API ImportLineage.

  • Ingesta de linaje personalizado en el catálogo: puede ingerir metadatos de linaje en el catálogo para datos procesados en aplicaciones u otros motores de procesamiento de datos que no estén soportados de forma nativa para la recogida de linaje por el servicio OCI Data Catalog. Admitimos la ingesta de linaje desde aplicaciones de Spark.

    La API ImportLineage acepta la carga útil de linaje en un formato compatible con openLineage. Para obtener más información sobre la API, consulte ImportLineage.

  • Visualización del linaje ingerido personalizado en un gráfico de linaje: en el gráfico de linaje de una entidad de datos, los usuarios pueden utilizar un conmutador en la interfaz de usuario para resaltar las rutas proporcionadas por los proveedores de linaje personalizado mediante la API ImportLineage.

Visualización del linaje de datos de una entidad

El linaje representa el flujo de datos desde el origen hasta esta entidad de destino.

Nota

Si aparece un icono de advertencia junto al nombre de un activo de datos recién creado o sus carpetas y entidades, debe crear una conexión para recoger las carpetas y entidades. Esto garantiza que todos los atributos de las entidades estén disponibles en el catálogo, ya que los metadatos de linaje pueden contener solo atributos que contribuyen al linaje.
    1. En el campo Buscar del separador Inicio, introduzca el nombre de la entidad.
    2. En la página de resultados de búsqueda, seleccione la entidad necesaria.
    3. En la página de detalles de la entidad, haga clic en el separador Linaje.

    En el gráfico de linaje, la entidad en la que se inicia el linaje se identifica mediante un icono de anclaje en él. El objeto de anclaje puede aparecer en cualquier lugar del gráfico de linaje. El lado izquierdo de este objeto de anclaje muestra el linaje y el lado derecho indica el impacto.

  • Esta tarea no se puede realizar mediante la CLI.

  • Ejecute la operación FetchEntityLineage para recuperar el linaje de una entidad.

Visualización de gráfico de linaje

El gráfico de linaje contiene nodos de proceso y nodos de datos conectados por líneas para indicar el flujo:

  • Proceso: representa los objetos de tarea de Data Integration, las aplicaciones de Data Flow o las aplicaciones personalizadas. Al hacer clic en un nodo de proceso, puede encontrar el menú Acciones.

    Para Data Integration, haga clic en Abrir en Data Integration para ver los detalles de la tarea Data Integration ejecutada en la consola de Data Integration.

    Para las aplicaciones de Data Flow, haga clic en Abrir en Data Flow para ver los detalles de la aplicación en la consola de Data Flow. Si las aplicaciones están en un arrendamiento diferente, debe conectarse al arrendamiento de OCI diferente. Para ello, copie el enlace y ábralo en una ventana independiente del explorador.

    Datos: representa los objetos de Data Catalog. Puede ampliar estos nodos para ver el linaje de nivel de columna. Al hacer clic en un icono de nodo de datos, puede encontrar el menú Acciones. Haga clic en Mostrar resumen de objeto para ver el resumen del objeto de Data Catalog en un nuevo separador.
    Nota

    Si Data Catalog no asigna con precisión un activo de datos de Data Integration, puede que encuentre un activo de datos duplicado en el gráfico de linaje.

Gráfico de linaje en Data Catalog

Nota

Los nodos de linaje no están visibles en el explorador Safari.

Active el conmutador Mostrar panel de propiedades para ver detalles como Nombre, Ruta y Descripción para un nodo seleccionado.

Al abrir el linaje de una entidad, puede ver lo siguiente:
  • Linaje de nivel de entidad
  • Las columnas, ampliando la entidad
  • Linaje a nivel de columna de una columna seleccionando la columna