データ・フロー・アプリケーションの開発

再利用可能なSparkアプリケーション・テンプレートおよびアプリケーション・セキュリティを含む、ライブラリについて学習します。アプリケーションの作成と表示、アプリケーションの編集、アプリケーションの削除、および引数やパラメータの適用を行う方法についても学習します。

データ・フローは、委任トークンを使用して長時間実行のバッチ・ジョブ(24時間以上)を自動的に停止します。この場合、アプリケーションのデータの処理が終了していないと、実行が失敗し、ジョブは未完了のままになる可能性があります。これを防ぐには、次のオプションを使用して、アプリケーションを実行できる合計時間を制限します。
コンソールを使用してアプリケーションを作成する場合
「拡張オプション」で、「最大実行期間分数」に期間を指定します。
CLIを使用したアプリケーションの作成時
--max-duration-in-minutes <number>のコマンドライン・オプションを渡します
SDKを使用したアプリケーションの作成時
オプションの引数max_duration_in_minutesを指定します
APIを使用したアプリケーションの作成時
オプションの引数maxDurationInMinutesを設定します

再利用可能なSparkアプリケーション・テンプレート

アプリケーションは、制限なく再利用可能なSparkアプリケーション・テンプレートです。

データ・フロー・アプリケーションは、Sparkアプリケーション、その依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成されます。Spark開発者がデータ・フロー・アプリケーションを作成すると、誰でもそれを使用でき、デプロイ、設定または実行の複雑さを気にする必要がありません。カスタム・ダッシュボード、レポート、スクリプトまたはREST APIコールのSpark分析で使用できます。 左側に、Spark開発者を表す図があります。矢印が、公開されたアプリケーションを表すボックスに向かっています。矢印には、「パブリッシュ: パラメータ化されたアプリケーション」のラベルが付いています。ボックスの右側には、非開発者を表すもう1つの図があります。矢印は、非開発者からボックスに向かい、「実行: カスタム・レポート」および「カスタム・ダッシュボード」のラベルが付いています。

データ・フロー・アプリケーションを起動するたびに、実行が作成されます。アプリケーション・テンプレートの詳細を入力し、特定のIaaSリソースのセットで起動します。 「データ・フロー・アプリケーション」のラベルが付いたボックスがあります。この中に、「Sparkコードへのリンク」、「依存性」、「デフォルトのドライバ/エグゼキュータのシェイプと数」、「引数」および「デフォルト・パラメータ」のリストが含まれています。「アプリケーションの実行」のラベルが付いた矢印が「データ・フローの実行」のラベルが付いた別のボックスに向かっています。この中に、「Sparkコードへのリンク」、「依存性」、「特定のドライバ/エグゼキュータのシェイプと数」、「引数」、「特定のパラメータ」、「Spark UI」、および「ログ出力」が含まれています。