データ統合の概要
管理者、データ・エンジニア、ETL開発者、オペレータなど、様々なタイプのデータ・プロフェッショナルがOracle Cloud Infrastructureデータ統合を使用します。
次のうち1つ以上のロールを実行できます:
- 管理者: サービスのライフサイクル管理およびセキュリティ・ポリシーを監督、管理およびモニターします。
- データ・エンジニアおよびETL開発者: データ統合ソリューションを開発、構築およびテストします。
- オペレータ: データ統合の実行を管理、モニターおよび診断します。
サービスについて
開始する前に、データ統合サービスがデータ・ソースへの接続を確立できるように、管理者が接続要件を満たしておく必要があります。その後、管理者がワークスペースを作成し、それに対するアクセス権をユーザーに付与します。ワークスペースを使用して、様々なデータ統合環境を整理し、簡単に管理できます。
データ統合ソリューションごとに、データ・アセットを登録して、使用するソースおよびターゲットのデータ・ソースを識別します。データ統合ソリューションの設計を開始する準備ができたら、データ統合によって統合およびデータ・ローダー・タスクが提供されます。
統合タスクを作成するには、データ・フローから始めます。データ統合のデザイナは、様々な演算子から選択してデータ・フローを視覚的に作成できる、使いやすいグラフィカル・ユーザー・インタフェースです。これには、タスクの実行前に潜在的な問題を特定して修正するのに役立つ検証およびデバッグ機能が含まれています。
データ・ローダー・タスクを作成する場合は、ソース・データ・アセットを指定し、ターゲット・データ・アセットにロードされるデータをクレンジングおよび処理するための変換を構成します。
特定のプロセス・セットを1シーケンスまたはパラレルに開始から終了まで実行するには、パイプラインを作成します。パイプラインの設計はデータ・フローの作成と似ており、演算子を使用して目的のタスクおよびアクティビティを追加します。パイプラインを作成した後は、そのパイプラインを使用するパイプライン・タスクを作成します。
タスクを作成したら、データ統合のデフォルト・アプリケーションまたは作成したアプリケーションに公開します。アプリケーションから、タスクを実行し、その進行状況とステータスをモニターします。タスクの自動実行をスケジュールすることもできます。
データ統合の概念
データ統合サービスを使用する際に知っておくと役立つ概念のリストを次に示します:
- ワークスペース
- データ統合ソリューションに関連付けられた、すべてのデータ統合リソース(プロジェクト、フォルダ、データ・アセット、タスク、データ・フロー、パイプライン、アプリケーション、スケジュールなど)のためのコンテナ。
- プロジェクト
- 設計時リソース(タスクやデータ・フロー、パイプラインなど)のためのコンテナ。
- フォルダ
- 設計時リソースを編成するための、プロジェクトまたは別のフォルダ内のコンテナ。
- データ・アセット
- データ・ソース(データベース、オブジェクト・ストア、データ・ソースのメタデータや接続の詳細を含むファイルまたはドキュメント・ストアなど)を表します。
- 接続
- データ・ソースへの接続を確立するために必要な詳細が含まれています。接続は常に1つのデータ・アセットに関連付けられます。1つのデータ・アセットに複数の接続を関連付けることはできます。
- データ・エンティティ
- データベース表やビューなどのデータの集合、または単一の論理ファイルであり、そのデータを記述する多くの属性が含まれています。
- スキーマ
- データ・アセット内のデータ・エンティティの集合。
- データ・フロー
- ソース・システムとターゲット・システム間のデータのフローおよびデータに対する操作を定義する設計時リソース。データ・フローを実行するには、データ・フローを統合タスクに追加します。
- パイプライン
- プロセスを開始から終了まで円滑に進めるために、タスクやアクティビティをシーケンスまたはパラレルに編成するための設計時リソース。パイプラインを実行するには、パイプライン・タスクにパイプラインを追加します。
- 演算子
- 演算子は、データ・フロー内の入力ソース、出力ターゲットまたは変換を表します。パイプラインでは、演算子は設計時または公開済タスク、またはアクティビティ(マージ、決定、終了など)を表します。
- パラメータ
- 様々なリソースおよび値でデータ・フローまたはパイプライン設計を再利用できるように、演算子の詳細に割り当てることができる変数のタイプ。設計時にパラメータを使用してデフォルト値を設定した場合、後から、データ・フローまたはパイプラインをラップするタスク内で、またはタスクを実行するときに、値を変更できます。
- タスク
- データに対して実行するアクションのセットを指定する設計時リソース。データ・ローダー・タスク、データ・フローの統合タスク、パイプラインのパイプライン・タスクを作成できます。SQLタスクおよびOCI Data Flowタスクを作成することもできます。タスクを実行するには、タスクをアプリケーションに公開して、テストするか本番環境にロールアウトします。
- アプリケーション
- ランタイム・アーティファクト(依存関係とともに公開されたタスクなど)のためのコンテナ。アプリケーションをテストに使用し、最終的に本番にロールアウトします。
- パッチ
- アプリケーションに対する更新。1つのタスクまたはタスク・グループを公開したとき、またはタスクを非公開にしたとき、それらのアクティビティがアプリケーションにパッチとしてログインしたとき。別のアプリケーション(ソース)の既存リソースのコピーを作成することでアプリケーション(ターゲット)を作成すると、パッチはアプリケーション(ターゲット)に追加されます。ターゲット・アプリケーションのその後のリフレッシュで、ソース・アプリケーションからの変更内容と同期した場合も、パッチはアプリケーション(ターゲット)に作成されます。
- 実行
- タスクの実行を表すランタイム・アーティファクト。
- スケジュール
- 公開済タスクを自動実行するタイミングと頻度を定義するランタイム・リソース。
- タスク・スケジュール
- 特定の公開タスク、およびタスクを自動実行するタイミングと頻度を定義する既存のスケジュールに関連付けられたランタイム・リソース。
リファレンス・アーキテクチャ
Oracle Cloud Infrastructure Data Integrationの使用方法の学習に役立つリファレンス・アーキテクチャをご紹介します。
リファレンス・アーキテクチャは、Oracle Cloud Infrastructureにデプロイするためのアーキテクチャ、構成およびベスト・プラクティスです。これらは、Oracle Architecture Centerから入手できます。
アーキテクチャ・センターのメイン・ページで、検索フィールドにOCI Data Integration
と入力し、[Enter]を押します。
次に、参照アーキテクチャの例をいくつか示します。
Oracle Cloud Infrastructureへのアクセス方法
Oracle Cloud Infrastructureには、コンソール(ブラウザベースのインタフェース)またはREST APIを使用してアクセスできます。
コンソールおよびデータ統合APIの詳細は、このガイド全体のトピックを参照してください。使用可能なSDKのリストは、SDKs and the CLI (ソフトウェア開発キットおよびコマンドライン・インタフェース)を参照してください。
コンソールにアクセスするには、サポートされているブラウザを使用する必要があります。「サポートされているブラウザ」を参照してください。このヘルプ・ページ上部のナビゲーション・メニューから、Oracle Cloudコンソール・リンクを使用してサインイン・ページに移動できます。クラウド・アカウント名またはテナンシを入力するように求められます。アイデンティティ・ドメインの入力を求められた場合、ほとんどの場合、アイデンティティ・ドメインは「デフォルト」のままにして、ユーザー名とパスワードを入力します。
リソース識別子
ほとんどのタイプのOracle Cloud Infrastructureリソースには、Oracle Cloud ID (OCID)と呼ばれる、Oracleによって割り当てられた一意の識別子があります。
OCIDの形式およびその他のリソース識別方法の詳細は、リソース識別子を参照してください。
サービスの制限および割当て
サービス制限
データ統合では、リージョン当たりのワークスペース数が5つに制限されています。
コンパートメント割当て
コンパートメント内のワークスペース・リソース数を制限するには、割当て制限を作成します。例:
set data-integration quota dis-workspace-count to 3 in compartment <compartment_name>
保存期間
データ統合では、削除および失敗したワークスペースが15日間保持されます。15日後、ワークスペースは完全に削除されます。
統合サービス
データ統合は、Oracle Cloud Infrastructureの様々なサービスおよび機能と統合されています。
データ統合は、すべてのインタフェース(コンソール、SDK、CLIおよびREST API)で、認証および認可のために、サービスOCI IAMとアイデンティティ・ドメインに統合されます。
管理者がグループ、コンパートメントおよびポリシーを設定します。ポリシーは、ユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの起動、バケットの作成、オブジェクトのダウンロードなどを実行できるユーザーを制御します。
管理者ではなく通常のユーザーが会社所有のOracle Cloud Infrastructureリソースを使用する必要がある場合は、ユーザーIDを設定してください。管理者は、ユーザーが使用できるコンパートメントを確認できます。
管理者は、データ統合ユーザーを認可するための一般的なポリシーを作成できます。また、データ統合ポリシーを作成して、データ統合サービスへのユーザー・アクセスを制御することもできます。
データ統合は、一般的な作業リクエストAPIとは統合されていません。データ統合では、作業リクエストに対して独自のAPIを使用します。WorkRequestリファレンスを参照してください。
テナンシ・エクスプローラを使用すると、すべてのリージョンにわたって、特定コンパートメント内のすべてのリソースを参照できます。テナンシ・エクスプローラは検索サービスを装備し、データ統合のリソース・タイプworkspace
をサポートしています。
Oracle Cloud Infrastructure Monitoringを使用すると、メトリックとアラームを使用してデータ統合リソースを能動的および受動的にモニターします。データ統合のメトリックは、読取りバイト数、書込みバイト数、アクティブなタスク実行の数、成功したタスク実行の数、および失敗したタスク実行の数を取得します。
データ・セキュリティについて
Oracle Cloud Infrastructureのセキュリティで得られる制御と透過性に加えて、データ統合サービスにより細やかにデータが扱われます。
Oracle Cloud Infrastructureの顧客分離によって、作成した各データ統合ワークスペースが独自の予約済コンピュート・インスタンスを取得できるようになります。ワークスペースは、同じテナンシ内の他のワークスペースおよび他のテナンシとは分離されます。データ統合は、データの安全を確保するために、タスク実行後はデータをこのコンピュート・インスタンスに格納しません。
データ統合では、Oracle Cloud InfrastructureのVaultサービスを使用して、パスワード、データ・アセットのウォレット・ファイル、シークレットとしての接続情報などの機密情報を格納および暗号化します。スキーマおよびデータ・エンティティへのアクセスは、必要なときにリアルタイムで行われます。データ・サンプリングがデータ・フローの「データ」タブにロードされたとき、またはデータ・ローダー・タスクで変換を構成するために、データ・エンティティからデータがリアルタイムにロードされます。
dataintegration
で使用されるアカウントには、必要な権限のみを割り当てます。たとえば、データ統合では、データ・アセットからデータを収集するための読取りアクセス権のみが必要です。
詳細は、次を参照してください:
- Oracle Cloud Infrastructureセキュリティ・ガイド
- Oracle Cloud Infrastructure VaultのVaultおよびシークレットの概念の説明
- データ統合の保護
- データ統合のポリシー
一般的なデータ統合ユーザー・アクティビティ
データ統合ユーザーとしてよく実行するアクティビティをいくつか示します。
アクティビティ | 説明 |
---|---|
ワークスペースへのアクセスまたは作成 | データ統合プロジェクトとそのリソース(データ・アセット、データ・フロー、タスクなど)の作業領域へのアクセスまたは作成 |
データ・アセットの作成 | データ統合データ・アセットとして作業するデータ・ソースを登録します |
接続の作成 | 新しい接続をデータ・アセットに追加します |
プロジェクトおよびフォルダの使用 |
設計時アーティファクトを編成するためのプロジェクトおよびフォルダを作成します 既存のプロジェクトのコピーによるプロジェクトの作成 |
データ・フローの作成 | データ・フローを設計します |
パイプラインの作成 | パイプラインを設計します |
統合タスクの作成(データ・フローの場合) パイプライン・タスクの作成(パイプラインの場合) |
タスクを作成します |
アプリケーションの作成 |
タスクを実行およびスケジュールするためのアプリケーションを作成します。
|
設計タスクの公開 | タスクをテストおよび実行のためにアプリケーションに公開します |
タスクを実行し、その進捗状況をモニターします | |
公開済タスクのスケジュール | 実行を自動化するためにスケジュールおよびタスク・スケジュールを作成します |
ワークスペースのモニタリング | ワークスペースのモニタリング |
コンソールの「データ統合の概要」ページの使用
コンソールでデータ統合にアクセスし、「概要」をクリックすると、「データ統合」の「概要」ページが表示されます。
「概要」ページには、機能、サービスの開始に役立つリンク、およびデータ統合を効率的に使用するためのリソースに関する情報が表示されます。
データ統合の学習リソース
Oracle Cloud Infrastructure Data Integrationについて学習するには、次のリソースを使用します。