技術メタデータの収集

データ・ソースからデータ・カタログ・リポジトリにデータ構造情報を抽出します。

データ構造情報を抽出するプロセスは、収集と呼ばれます。

収集プロセスを示すイメージ

データ・アセットとは

データ・ソースを収集するには、データ・カタログ・インスタンスでデータ・アセットとしてデータ・ソースを登録する必要があります。データ・アセットとは、データベース、クラウド・ストレージ・コンテナ、メッセージ・ストリームなどの任意の物理データ・ストアまたはストリームです。

データ・アセットを収集すると、データ・カタログ・ハーベスタは、データ・アセットからメタデータ情報を抽出、標準化および索引付けし、データ・カタログに統合済で検索可能なリポジトリを作成します。その後、データ・カタログを参照または探索し、収集されたデータ・エンティティおよび属性を表示して、データ・アセットに注釈を付けたり拡張します。

データ・ソースの収集では、次のステップを実行します:

  1. データ・ソースに接続するための接続の詳細を識別します。
  2. データ・アセットを作成します。
  3. データ・アセットへの接続を追加します。
  4. データ・アセットを収集します。

データ・アセットでサポートされるデータ・ソース

次のデータ・ソース(パブリックIPまたはプライベートIPを使用してアクセス可能)を使用して、データ・カタログにデータ・アセットを作成します。

ノート

これはサポートされているデータ・ソースのリストであり、動作保証されているデータ・ソースではありません。
データ・ソース・タイプ バージョン
Oracle Database 12.1
12.2
18
19
20
21
Oracle Cloud Infrastructure上のOracle Database 12.1
12.2
18
19
Exadata DBシステム 12.1
12.2
18
19
Oracle Cloud Infrastructure Object Storage 最新
分析およびデータ・ウェアハウス用のAutonomous Database 18c/19c
トランザクション処理および混合ワークロード用のAutonomous Database 18c/19c
MySQL 8.0.x
OCI HeatWaveサービス 8.0.25-u3-cloud
PostgreSQL 10.1
9.6、9.5、9.4、9.3、9.2、9.1および9.0
8.4、8.3および8.2
Apache Hive CDH 5.4以上
Apache 1.0、2.0、3.0以上
Microsoft SQL Server 2019
2017
2016 サービス・パック 2
2014 サービス・パック 3
2012 サービス・パック 4
IBM DB2 LUW (DB2 for Linux、UNIXおよびWindows) 10.5.0.11
11.5.5.0
IBM DB2 AS400 7.1以上
Apache Kafka 2.12-2.3.0
Microsoft Azure SQL Database 12.00.2000

Oracle Cloud Infrastructure Virtual Cloud Networks (VCN)に接続されているオンプレミス・データ・ソースに接続することもできます。

作成するデータ・アセットのタイプに応じて、異なるデータ構造を使用してデータ・エンティティを参照します。たとえば、Oracle Databaseデータ・アセットを作成する場合、データベース・オブジェクトを参照して表を確認し、データ・エンティティを表示します。

ノート

Oracle DatabaseまたはAutonomous Databaseタイプのデータ・アセットでは、データベース・バージョンがOracle Database 12 c以上の場合、データ・カタログ・ハーベスタは、Oracleで保持されているスキーマおよびその他の共通ユーザー・スキーマを収集しません。

データ・ソースの収集オブジェクト

次の表に、様々なデータ・ソースの収集オブジェクトを示します。

データソース 収集されたオブジェクト
Apache Hive
  • Hiveデータベース
  • テーブル
Apache Kafka
  • トピック
  • メッセージ数
  • 属性
Oracle Cloud Infrastructure Object Storage
  • バケット
  • ファイル

    (ファイル・タイプ: CSV、Avro、ORC、Parquet、JSON、XML、Excel)

  • フィールド

    (ファイル・タイプに基づく)

OCIデータ・カタログ・メタストア
  • カタログ
  • データベース
  • テーブル
Autonomous Data Warehouse
  • スキーマ
  • テーブル
  • ビュー
  • 制約(主キーおよび外部キー)
  • コメント(Oracle Databaseにのみ適用)
Autonomous Transaction Processing
IBM DB2
Microsoft Azure SQL Database
Microsoft SQL Server
MySQL
Oracle Database
PostgreSQL

サポートされるファイル・タイプ

Oracle Object Storageでは、次のファイル・タイプがサポートされています:

  • カンマ区切り値(CSV)ファイル(.csv.csv.gz)

    ノート

    サポートされているセパレータは、,(カンマ)、\t(タブ)、|(縦棒)、;(セミコロン)です。
  • XMLファイル(.xml.xsd)

  • Avroファイル(.avro.avro.gz)

  • Excelファイル(.xls.xlsx)

  • Apache Parquetファイル(.parquet.pq)

  • Apache ORCファイル(.orc)

  • 単純なJSONファイル(.json.json.gz)

サポートされていないファイル・タイプの収集を選択した場合、データ・カタログ・ハーベスタは、名前やパスなどの基本情報のみをこれらのファイルから抽出します。

データ・エンティティおよび属性

データ・アセットには、1つ以上のデータ・エンティティが含まれています。データ・エンティティとは、データベース表やビューなどのデータの集合、または単一の論理ファイルです。通常、データ・エンティティにはデータを表す多くの属性があります。属性は、名前とデータ型を持つデータ・アイテムを記述します。

データ・アセット データ・エンティティ 属性
データベース 表およびビュー
ファイル・コンテナ ファイル フィールド
データ・ストリーム イベント、トピックまたはペイロード キー