データ・フローの概念

データ・フローを使用する際に、これらの概念を理解することが重要です。

データ・フロー・アプリケーション: アプリケーションは、Sparkアプリケーション、その依存関係、デフォルト・パラメータおよびデフォルト・ランタイム・リソース仕様で構成される、無制限に再利用可能なSparkアプリケーション・テンプレートです。開発者がデータ・フロー・アプリケーションを作成すると、開発者はだれもがデータ・フロー・アプリケーションを使用でき、デプロイ、設定または実行の複雑さを気にする必要がありません。
データ・フロー・ライブラリ: ライブラリは、データ・フロー・アプリケーションの中央リポジトリです。ライブラリに公開されたアプリケーションは、すべてのユーザーが参照、検索および実行でき、データ・フロー・システムでの適切な権限を持つことができます。
データ・フロー実行: データ・フロー・アプリケーションが実行されるたびに、実行が作成されます。データ・フロー実行では、アプリケーションの出力、ログおよび統計が取得され、自動的に安全に格納されます。出力は保存され、UIまたはREST APIを使用して、適切な権限を持つユーザーが参照できます。実行により、デバッグおよび診断のためにSpark UIへのセキュアなアクセスが可能になります。
データ・フロー・プール: データ・フロー・プールは、様々なSparkデータおよび機械学習ワークロード(バッチ、ストリーミング、インタラクティブなど)の実行に使用できる、事前構成されたコンピュート・リソースのグループです。データ・フロー・プールは、多数のデータ・フロー・バッチ、ストリーミング、セッション・ワークロードで、同じテナント内の様々なユーザーが同時に使用できます。
柔軟なコンピュート: データ・フロー・アプリケーションを実行するたびに、必要な大きさを決定します。データ・フローにより、VMの割当て、ジョブの実行、すべての出力のセキュアな取得、クラスタの停止が実行されます。データ・フローには保守するものがありません。クラスタは、実行する実際の作業がある場合にのみ実行されます。
エラスティック・ストレージ: データ・フローは、Oracle Cloud Infrastructureオブジェクト・ストレージ・サービスと連携します。詳細は、オブジェクト・ストレージの概要を参照してください。
プライベート・ネットワーク: プライベート・ネットワークでホストされているデータ・ソースにアクセスするようにデータ・フロー・アプリケーションを構成できます。アプリケーションで使用するプライベート・エンドポイントがまだ存在しない場合は、作成する必要があります。
セキュリティ: データ・フローは、認証および認可のためにOracle Cloud Infrastructure Identity and Access Management (IAM)と統合されています。Sparkアプリケーションは、起動したユーザーにかわって実行されます。つまり、Sparkアプリケーションにはエンド・ユーザーと同じ権限が付与されます。IAM対応システムにアクセスする場合、資格証明を使用する必要はありません。さらに、データ・フローは、Oracle Cloud Infrastructureのその他のすべてのセキュリティ属性(停止中および稼働中のデータの透過的暗号化を含む)の恩恵を受けることができます。
サービス管理者: 管理者ロールの詳細は、サービス管理者ロールについてを参照してください。
アカウント管理者: アカウント管理者は、サービスへのアクセスを必要とする各ユーザーのアカウントを作成します。
管理者コントロール: データ・フローでは、サービス制限の設定、およびすべてのアプリケーションと実行を完全に制御する管理者の作成が可能です。所有しているユーザー数に関係なく制御できています。
Apache Spark: Apache Sparkは、大量データ処理用の統合分析エンジンであり、ストリーミング、SQL、機械学習およびグラフ処理用の組込みモジュールがあります。
Sparkアプリケーション: Sparkアプリケーションは、Spark APIを使用して分散データ処理タスクを実行します。Sparkアプリケーションは、Java、Python、その他の複数の言語で記述できます。Sparkアプリケーションは、Sparkフレームワーク内で実行されるJARファイルなどのファイル自体をマニフェスト化します。
Spark UI: Spark UIはApache Sparkに含まれ、Sparkアプリケーションのデバッグおよび診断に重要なツールです。実行の許可ポリシーの対象となる、任意のデータ・フロー実行のSpark UIにアクセスできます。
Sparkログ: Sparkでは、デバッグおよび診断に役立つSparkログ・ファイルが生成されます。各データ・フロー実行では、実行の許可ポリシーの対象となる、UIまたはAPIを使用してアクセスできるログ・ファイルが自動的に保存されます。
拡張ログ: Oracle Cloud Infrastructure Loggingに用意されているドライバおよびエグゼキュータのログ(StdOutとStdErrの両方)。使用するかどうかはオプションです。

Oracle Cloud Infrastructureドキュメント Free Tierを試してみる

データ・フローの概念

Oracle Cloud Infrastructureドキュメント
Free Tierを試してみる