JavaまたはScalaデータ・フロー・アプリケーションの作成

データ・フローでJavaまたはScalaアプリケーションを作成するには、次のステップに従います。

  • Spark-submitファイルをOracle Cloud Infrastructureオブジェクト・ストレージにアップロードします。詳細は、オブジェクト・ストアの設定を参照してください。
    1. ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「データ・レイク」で、「データ・フロー」をクリックします。
    2. 左側のメニューで、「Applications」をクリックします。
    3. 「リスト・スコープ」で、アプリケーションを作成するコンパートメントを選択します。
    4. アプリケーション・ページで、「アプリケーションの作成」をクリックします。
    5. 「アプリケーションの作成」パネルで、アプリケーションの名前と、検索に役立つオプションの説明を入力します。
    6. 「リソース構成」で、次の値を指定します。必要なリソースの数を計算するには、データ・フロー・アプリケーションのサイズ設定を参照してください。
      1. Sparkバージョンを選択します。
      2. (オプション)プールを選択します。
      3. 「ドライバ・シェイプ」で、Sparkドライバのホストに使用するクラスタ・ノードのタイプを選択します。
      4. (オプション)ドライバにフレキシブル・シェイプを選択した場合は、OCPUの数およびメモリーの量をカスタマイズします。
      5. 「エグゼキュータ・シェイプ」で、各Sparkエグゼキュータのホストに使用するクラスタ・ノードのタイプを選択します。
      6. (オプション)エグゼキュータにフレキシブル・シェイプを選択した場合は、OCPUの数およびメモリーの量をカスタマイズします。
      7. (オプション)Spark動的割当て(自動スケーリング)の使用を有効にするには、「自動スケーリングの有効化」を選択します。
      8. 必要な「エグゼキュータの数」を入力します。自動スケーリングの使用を選択した場合は、エグゼキュータの最小数と最大数を入力します。
    7. 「アプリケーション構成」で、次の値を指定します。
      1. (オプション)アプリケーションがSparkストリーミング用の場合は、「Sparkストリーミング」を選択します
      1. ノート

        ストリーミング・アプリケーションが動作するには、「Sparkストリーミングの開始」のステップを実行しておく必要があります。
      2. 「Spark - 送信オプションの使用」を選択しないでください
      3. 必要に応じて、「言語」オプションから「Java」または「Scala」を選択します。
      4. 「ファイルの選択」で、アプリケーションへのファイル・ファイルURLを指定します。そのためには、次のいずれかの方法を使用します。
        • 「オブジェクト・ストレージのファイル名」リストからファイルを選択します。バケットが別のコンパートメントにある場合は、「コンパートメントの変更」をクリックします。
        • 「ファイルのURLを手動で入力」を選択し、ファイル名とそのパスを次の書式で入力します:
           oci://<bucket_name>@<objectstore_namespace>/<file_name>
      5. 「メイン」クラス名を入力します。
      6. (オプション)メイン・クラスの起動に使用する引数を入力します。数字や名前に制限はありません。たとえば、「引数」フィールドに次のように入力します。
        ${<argument_1>} ${<argument_2>}
        デフォルト値の選択を求められます。ここではこれらを入力することをお薦めします。引数を追加するたびに、「引数」フィールドに入力された名前と、パラメータ値を入力するテキスト・ボックスとともにパラメータが表示されます。

        Sparkストリーミングを指定する場合は、引数としてチェックポイント・フォルダを指定する必要があります。チェックポイントを引数として渡す方法については、GitHubのサンプルコードの例を参照してください。

        ノート

        パラメータ名または値に「$」または「/」文字を含めないでください。
      7. (オプション) archive.zipファイルがある場合は、そのファイルをOracle Cloud Infrastructure Object Storageにアップロードしてから、アーカイブURIにそのパスを移入します。これには2つの方法があります:
        • 「オブジェクト・ストレージのファイル名」リストからファイルを選択します。バケットが別のコンパートメントにある場合は、「コンパートメントの変更」をクリックします。
        • 「手動でファイル・パスを入力」をクリックし、次の形式でファイル名とそのパスを入力します:
           oci://<bucket_name>@<namespace_name>/<file_name>
      8. 「アプリケーション・ログの場所」で、次のいずれかの方法でOracle Cloud Infrastructure Loggingを取り込む場所を指定します:
        • 「オブジェクト・ストレージ・ファイル名」リストからdataflow-logsバケットを選択します。バケットが別のコンパートメントにある場合は、「コンパートメントの変更」をクリックします。
        • 「バケット・パスを手動で入力」を選択し、この形式を使用してバケット・パスを入力します:
           oci://dataflow-logs@<namespace_name>
      9. (オプション)リストから「メタストア」を選択します。メタストアが別のコンパートメントにある場合は、「コンパートメントの変更」をクリックします。「デフォルトの管理対象表の場所」は、メタストアに基づいて自動的に移入されます。
    8. (オプション)アプリケーションにタグを追加するには、(定義済タグの)タグ・ネームスペースを選択してから、タグ・キーと値を指定します。必要に応じてタグを追加します。タグ付けの詳細は、タグ付けの概要に関する項を参照してください。
    9. (オプション)詳細構成オプションを追加します。
      1. 「拡張オプションの表示」をクリックします。
      2. (オプション)「リソース・プリンシパル認証の使用」を選択すると、起動が速くなるか、実行が24時間以上続くことが予想されます。
      3. (オプション)「Spark Oracleデータ・ソースの有効化」をクリックして、Spark Oracleデータソースを使用します。
      4. Delta Lakeのバージョンを選択します。選択した値は、Spark構成プロパティのキー/値のペアに反映されます。Delta Lakeの詳細は、データ・フローおよびDelta Lakeを参照してください。
      5. 「ログ」セクションで、「ログ・グループ」およびOracle Cloud Infrastructure Loggingのアプリケーション・ログを選択します。ログ・グループが別のコンパートメントにある場合は、コンパートメントの変更が可能です。
      6. Spark構成プロパティのキーおよび値を入力します。
        • Sparkストリーミングを使用している場合は、spark.sql.streaming.graceful.shutdown.timeoutのキーを指定し、値は30分(ミリ秒)以内にします。
        • Spark Oracleデータソースを使用している場合は、spark.oracle.datasource.enabledのキーを指定し、値はtrueにします。
      7. 「+別のプロパティ」をクリックして、別の構成プロパティを追加します。
      8. (オプション)ウェアハウス・バケットURIを次の形式で移入して、ウェアハウス・バケットのデフォルト値を上書きします:
        oci://<warehouse-name>@<tenancy>
      9. ネットワーク・アクセスを選択します。
        1. データ・フローにプライベート・エンドポイントをアタッチする場合は、「プライベート・サブネットへのセキュア・アクセス」をクリックします。表示されるリストからプライベート・エンドポイントを選択します。
          ノート

          IPアドレスを使用してプライベート・エンドポイントに接続できません。FQDNを使用する必要があります。
        2. プライベート・エンドポイントを使用している場合、「インターネット・アクセス(サブネットなし)」をクリックします。
      10. (オプション)データ系統収集を有効にするには:
        1. 「データ系統収集の有効化」をクリックします。
        2. 「データ・カタログを手動で入力」をクリックするか、現在のテナンシの構成可能なコンパートメントからデータ・カタログ・インスタンスを選択します。
        3. (オプション)前のステップで「データ・カタログを手動で入力」をクリックした場合は、「データ・カタログ・テナンシOCID」「データ・カタログ・コンパートメントOCID」および「データ・カタログ・インスタンスODID」の値を入力します。
      11. 「最大実行期間(分)」に、60 (1時間)から10080 (7日)までの値を入力します。値を入力しない場合、送信された実行は、成功するか、失敗するか、取り消されるか、またはデフォルトの最大期間(24時間)に達するまで続行されます。
    10. 「作成」をクリックしてアプリケーションを作成するか、「スタックとして保存」をクリックして後で作成します。
      将来、言語、名前およびファイルURLの値を変更するには、アプリケーションの編集を参照してください。言語を変更できるのは、JavaとScalaの間のみです。PythonまたはSQLには変更できません。
  • createコマンドと必須パラメータを使用して、アプリケーションを作成します。

    oci data-flow application create [OPTIONS]
    CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。
  • CreateApplication操作を実行して、アプリケーションを作成します。