データ・フローの概要

データ・フローについて、およびそれを使用してApache Spark アプリケーションの出力を簡単に作成、共有、実行および表示する方法を学習します。

データ・フロー・アーキテクチャに、アプリケーション、ライブラリおよび実行を含むユーザー・レイヤーが表示されています。その下に、アクセス・ポリシーと使用制限に関する管理者コントロールで構成される管理者レイヤーがあります。その下に、エラスティック・コンピュートとエラスティック・ストレージのインフラストラクチャ・レイヤーがあります。最後に、アイデンティティ管理およびアクセス管理で構成されるセキュリティ・レイヤーがあります。

Oracle Cloud Infrastructureデータ・フローとは

データ・フローは、豊富なユーザー・インタフェースを備えたクラウドベースのサーバーレス・プラットフォームです。これにより、Spark開発者およびデータ・サイエンティストは、クラスタの必要性、オペレーション・チームまたは高度に特化したSparkの知識がなくても、任意のスケールでSparkジョブを作成、編集および実行できます。サーバーレスとは、ユーザーがデプロイまたは管理するインフラストラクチャがないことを意味します。これは、完全にREST APIによって駆動されるため、アプリケーションやワークフローとの統合が容易です。データ・フローは、このREST APIを使用して制御できます。データ・フローはCLIから実行できます。データ・フローのコマンドは、Oracle Cloud Infrastructureのコマンドライン・インタフェースの一部として使用できます。可能なこと:

  • Apache Sparkデータ・ソースに接続する。

  • 再利用可能なApache Sparkアプリケーションを作成する。

  • Apache Sparkジョブを数秒で起動する。

  • SQL、Python、Java、Scalaまたはspark-submitを使用してApache Sparkアプリケーションを作成する。

  • 単一のプラットフォームからすべてのApache Sparkアプリケーションを管理する。

  • データ・センターのクラウドまたはオンプレミスのデータを処理する。

  • 高度なビッグ・データのアプリケーションに簡単に組み入れることができる、ビッグ・データの構築ブロックを作成する。

データ・フローSparkオンデマンドを表すボックスがあり、そこから「処理済」のラベルの付いた矢印がオブジェクト・ストレージに向かっています。オブジェクト・ストレージの下には、別のボックスが2つあり、それぞれからそこへの矢印が付いています。一方のボックスはSparkアプリケーションを表し、もう一方はRawデータを表します。オブジェクト・ストレージからデータ・フローSparkオンデマンドへの、SparkアプリケーションとRawデータのフローを示す2つの矢印があります。