データ系統概要

データ系統は、データがデータ・ソースから消費へと流れる際に必要となるジャーニーを示します。データ・コンシューマは、メタデータを介して、データ・パイプラインでデータが処理した変換を理解およびビジュアル化できます。

系統でサポートされるデータ・ソース

データ・カタログでは、次のデータ・ソースに対して系統がサポートされています。

  • Apache Hiveデータベース
  • Autonomous Data Warehouse
  • Autonomous Transaction Processing
  • IBM DB2
  • Microsoft Azure SQL Database
  • Microsoft SQL Serverデータベース
  • MySQL Database
  • Oracle Database
  • Oracle Object Storage
  • PostgreSQL

データ系統

データ・カタログでは、エンティティとその属性の系統を表示できます。たとえば、表レベルおよび列レベルの系統です。系統は、データ統合アプリケーション、データ・フロー・アプリケーションまたはカスタム・アプリケーションによって処理されるデータに使用できます。それぞれに、次の項で説明するように構成設定が必要です。

データ統合のデータ系統

データ・カタログに系統を表示するには、次を実行する必要があります。

データ・カタログがデータ統合ワークスペースから系統情報をフェッチすると、データ・アセットおよびアプリケーションで実行されるタスクに関する情報が含まれます。系統情報に基づいて、対応するデータ・アセットがカタログ内にない場合、データ・カタログはそのデータ・アセットを作成します。このデータ・アセットの名前は、データ統合ワークスペースで定義された名前と同じです。

データ系統の操作中に、次の点に注意してください。
  • 系統は、データ統合ワークスペースの統合タスクおよびデータ・ローダー・タスクによって処理されたデータに対してのみ使用できます。

  • 列レベルの系統は、「フラット化」、「ピボット」および「関数」演算子があるタスクには使用できません。

データ・フローのデータ系統

データ・フローでアプリケーションの系統を表示するには、OCIデータ・フロー・ワークスペースのアプリケーション構成で「データ系統収集の有効化」チェック・ボックスを選択して系統メタデータを生成します。データ・アセットは、データ・フロー・サービスのデータ・カタログに、最初の系統メタデータがカタログにプッシュされるときに同じテナンシに自動的に作成されます。このデータ・アセットの名前は、OCI Data Flow - <tenancy name>の形式です。データ・フロー・データ・アセットに必要なIAMポリシーおよびデータ・フローを参照してください。

データ・フローで実行されているアプリケーションの系統を別のテナンシで取得するには、そのデータ・フロー・サービスのデータ・アセットを作成する必要があります。次のポリシーを設定してください。

データ・フロー内で系統が更新されると、データ・フロー・データ・アセットは事前設定された間隔で更新されます。

カスタム系統の取込み

データ・カタログを使用すると、データ・カタログが系統収集をネイティブにサポートしていないアプリケーションで処理/変換されるデータの系統メタデータを提供することで、系統機能を拡張できます。これは、ImportLineage APIを使用して実現されます。

  • カスタム系統プロバイダのデータ資産作成: すべてのカスタム系統プロバイダのデータ資産を作成する必要があります。このようなデータ・アセットのデータ・アセット・キーは、ImportLineage APIで系統プロバイダの識別に使用されるため、注意することが重要です。

  • カタログへのカスタム系統の取込み: OCIデータ・カタログ・サービスによる系統収集でネイティブにサポートされていないアプリケーションまたはその他のデータ処理エンジンで処理されるデータについて、系統メタデータをカタログに取り込むことができます。Sparkアプリケーションからの系統の取込みをサポートしています。

    ImportLineage APIは、openLineage互換形式で系統ペイロードを受け入れます。APIの詳細は、ImportLineageを参照してください。

  • 系統グラフでのカスタム取込み系統の表示: データ・エンティティの系統グラフでは、ユーザーはUIのトグルを使用して、ImportLineage APIを使用してカスタム系統プロバイダから提供されたパスを強調表示できます。

エンティティのデータ系統の表示

系統は、ソースからこのターゲット・エンティティへのデータのフローを表します。

ノート

新しく作成されたデータ・アセットの名前またはそのフォルダとエンティティの横に警告アイコンが表示された場合は、フォルダとエンティティを収集するための接続を作成する必要があります。これにより、系統メタデータに系統を構成する属性のみが含まれる可能性があるため、エンティティのすべての属性がカタログで使用できるようになります。
    1. 「ホーム」タブの「検索」フィールドに、エンティティの名前を入力します。
    2. 検索結果ページで、必要なエンティティを選択します。
    3. エンティティの詳細ページで、「系統」タブをクリックします。

    系統グラフでは、系統を起動するエンティティは、その上にあるアンカー・アイコンによって識別されます。アンカー・オブジェクトは、折れ線グラフの任意の場所に表示できます。このアンカー・オブジェクトの左側には系統が表示され、右側には影響が示されます。

  • このタスクはCLIを使用して実行できません。

  • FetchEntityLineage操作を実行して、エンティティの系統をフェッチします。

系統グラフの視覚化

折れ線グラフには、フローを示すために線で接続されたプロセスノードとデータノードが含まれます。

  • プロセス: データ統合タスク・オブジェクト、データ・フロー・アプリケーションまたはカスタム・アプリケーションを表します。プロセス・ノードをクリックすると、「アクション」メニューが表示されます。

    データ統合の場合、「データ統合で開く」をクリックして、データ統合コンソールで実行されるデータ統合タスクの詳細を表示します。

    データ・フロー・アプリケーションの場合は、「データ・フローで開く」をクリックして、データ・フロー・コンソールでアプリケーションの詳細を表示します。アプリケーションが別のテナンシにある場合は、別のOCIテナンシにサインインする必要があります。これを行うには、リンクをコピーして、別のブラウザ・ウィンドウで開きます。

    データ: データ・カタログ・オブジェクトを表します。これらのノードを展開して、列レベルの系統を表示できます。データ・ノード・アイコンをクリックすると、「アクション」メニューが表示されます。「オブジェクト・サマリーの表示」をクリックして、データ・カタログ・オブジェクトのサマリーを新しいタブに表示します。
    ノート

    データ・カタログでデータ統合からデータ・アセットを正確にマップできない場合は、系統グラフでデータ・アセットが重複している可能性があります。

データ・カタログの系統グラフ

ノート

系統ノードはSafariブラウザに表示されません。

選択したノードの「名前」「パス」「説明」などの詳細を表示するには、「プロパティ・パネルの表示」トグルを有効にします。

エンティティの系統を開くと、次のものを表示できます。
  • エンティティ・レベルの系統
  • 列(エンティティを展開)
  • 列を選択することによる列の列レベルの系統