データ・フロー・アプリケーションの開発
再利用可能なSparkアプリケーション・テンプレートおよびアプリケーション・セキュリティを含む、ライブラリについて学習します。アプリケーションの作成と表示、アプリケーションの編集、アプリケーションの削除、および引数やパラメータの適用を行う方法についても学習します。
データ・フローは、委任トークンを使用して長時間実行のバッチ・ジョブ(24時間以上)を自動的に停止します。この場合、アプリケーションのデータの処理が終了していないと、実行が失敗し、ジョブは未完了のままになる可能性があります。これを防ぐには、次のオプションを使用して、アプリケーションを実行できる合計時間を制限します。
- コンソールを使用してアプリケーションを作成する場合
- 「拡張オプション」で、「最大実行期間分数」に期間を指定します。
- CLIを使用したアプリケーションの作成時
--max-duration-in-minutes <number>
のコマンドライン・オプションを渡します- SDKを使用したアプリケーションの作成時
- オプションの引数
max_duration_in_minutes
を指定します - APIを使用したアプリケーションの作成時
- オプションの引数
maxDurationInMinutes
を設定します
再利用可能なSparkアプリケーション・テンプレート
アプリケーションは、制限なく再利用可能なSparkアプリケーション・テンプレートです。
データ・フロー・アプリケーションは、Sparkアプリケーション、その依存関係、デフォルト・パラメータおよびデフォルトの実行時リソース仕様で構成されます。Spark開発者がデータ・フロー・アプリケーションを作成すると、誰でもそれを使用でき、デプロイ、設定または実行の複雑さを気にする必要がありません。カスタム・ダッシュボード、レポート、スクリプトまたはREST APIコールのSpark分析で使用できます。
データ・フロー・アプリケーションを起動するたびに、実行が作成されます。アプリケーション・テンプレートの詳細を入力し、特定のIaaSリソースのセットで起動します。