データ・フローでサポートされているSparkプロパティ

データ・フロー・アプリケーションを実行するたびに、「Spark構成プロパティ」フィールドにSparkプロパティを追加できます。

詳細は、Spark構成ガイドを参照してください。
重要

データ・フローで実行している場合は、spark.masterの値を変更しないでください。これを行うと、プロビジョニングしたすべてのリソースがジョブで使用されません。

データ・フロー独自のSpark構成リスト

データ・フローに固有のSpark構成とその使用方法。

データ・フローSpark構成リスト
Spark構成 使用摘要 該当するSparkバージョン
dataflow.auth 構成値を'resource_principal'に設定すると、データ・フロー実行のリソース・プリンシパル認証が有効になります。この構成は、24時間を超える実行を目的とした実行に必要です。リソース主体を有効にする前に、適切なポリシーを設定します。 すべて
spark.dataflow.acquireQuotaTimeout データ・フローでは、ジョブを実行するための十分なリソースがない場合にジョブを発行できます。ジョブは内部キューに保持され、リソースが使用可能になると解放されます。データ・フローは、設定したタイムアウト値が終了するまでチェックを続けます。spark.dataflow.acquireQuotaTimeoutプロパティを設定して、このタイムアウト値を指定します。アプリケーションの作成時またはアプリケーションの実行時に、「拡張オプション」でプロパティを設定します。例:
spark.dataflow.acquireQuotaTimeout = 1h
spark.dataflow.acquireQuotaTimeout = 30m
spark.dataflow.acquireQuotaTimeout = 45min
タイムアウト時間を表すにはhを使用し、タイムアウト時間を表すにはmまたはminを使用します。

ノート: spark.dataflow.acquireQuotaTimeoutが設定されていない場合、実行は必要なリソースが使用可能な場合にのみ受け入れられます。

すべて
spark.archives#conda spark.archives構成は、オープン・ソースの対応する機能とまったく同じ機能を提供します。Condaをパッケージ・マネージャとして使用してOCIデータ・フローでPySparkジョブを送信する場合は、データ・フローがアーティファクトを適切なディレクトリに抽出できるように、アーティファクト・パッケージ・エントリに#condaをアタッチします。
oci://<bucket-name>@<namespace-name>/<path>/artififact.tar.gz#conda
詳細は、「Conda Packとデータ・フローの統合」を参照してください。
3.2.1 以上
spark.dataflow.streaming.restartPolicy.restartPeriod

ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。

このプロパティは、ストリーミング・アプリケーションの再起動間の最小遅延を指定します。一時的な問題が特定の期間に多くの再起動を引き起こすのを防ぐために、このデフォルト値は3分に設定されます。

3.0.2 、3.2.1以上
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures

ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。

このプロパティは、データ・フローが失敗したストリーミング・アプリケーションの再起動を停止する前に発生する可能性のある連続する失敗の最大数を指定します。このデフォルト値は10です。

3.0.2 、3.2.1以上
spark.sql.streaming.graceful.shutdown.timeout

ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。

データ・フロー・ストリーミング実行では、停止期間を使用してチェックポイント・データを保持し、前の状態から正しく再起動します。この構成では、データ・フロー・ストリーミング実行が、強制的に停止される前にチェックポイント状態を正常に保持するために使用できる最大時間を指定します。デフォルトは30分です。

3.0.2 、3.2.1以上
spark.oracle.datasource.enabled

Spark Oracleデータソースは、Spark JDBCデータソースの拡張です。SparkからOracleデータベースへの接続が簡略化されます。Spark Oracleデータベースは、SparkのJDBCデータソースに用意されているすべてのオプションに加えて、次のものを提供することで、SparkからOracleデータベースへの接続を簡素化します:

  • 自律型データベースからの自動ダウンロード・ウォレット。つまり、ウォレットをダウンロードしてオブジェクト・ストレージまたはVaultに保持する必要はありません。
  • オブジェクト・ストレージからドライバやエグゼキュータへのウォレット・バンドルの自動配布。ユーザーからのカスタマイズされたコードはありません。
  • JDBCドライバJARファイルであるため、ダウンロードしてarchive.zipファイルに含める必要がなくなります。JDBCドライバのバージョンは21.3.0.0です。
Spark Oracleデータソースを有効にするには、構成spark.oracle.datasource.enabledをtrueの値に設定します:
spark.oracle.datasource.enabled = true
詳細は、Spark Oracleデータソースを参照してください。
3.0.2 以上
spark.scheduler.minRegisteredResourcesRatio

デフォルト: 1.0

ノート: 0.0から1.0の倍数で指定します。

ジョブ・レイヤーで実行をスケジュールする前に待機する合計予想リソース当たりの登録済リソースの最小比率。このパラメータを調整するには、ジョブの起動を高速化し、適切なリソース可用性を確保する間のトレードオフが必要です。

たとえば、0.8という値は、待機しているリソースの80%を意味します。

すべての
spark.dataflow.overAllocationRatio

デフォルト: 1.0

ノート: 1.0以上の倍数で指定します。

インスタンスのマイナー部分の作成に失敗したことによるジョブの失敗を回避するための過剰なリソース作成の比率。追加のインスタンス作成は、作成フェーズ中にのみ請求され、ジョブの開始後に終了します。

たとえば、値が1.1の場合、顧客ジョブの予想されるリソースに対応するために10%以上のリソースが作成されたことを意味します。

すべての