データ・フローでサポートされているSparkプロパティ
データ・フロー・アプリケーションを実行するたびに、「Spark構成プロパティ」フィールドにSparkプロパティを追加できます。
データ・フローで実行している場合は、
spark.master
の値を変更しないでください。これを行うと、プロビジョニングしたすべてのリソースがジョブで使用されません。 データ・フロー独自のSpark構成リスト
データ・フローに固有のSpark構成とその使用方法。
Spark構成 | 使用摘要 | 該当するSparkバージョン |
---|---|---|
dataflow.auth | 構成値を'resource_principal'に設定すると、データ・フロー実行のリソース・プリンシパル認証が有効になります。この構成は、24時間を超える実行を目的とした実行に必要です。リソース主体を有効にする前に、適切なポリシーを設定します。 | すべて |
spark.dataflow.acquireQuotaTimeout | データ・フローでは、ジョブを実行するための十分なリソースがない場合にジョブを発行できます。ジョブは内部キューに保持され、リソースが使用可能になると解放されます。データ・フローは、設定したタイムアウト値が終了するまでチェックを続けます。spark.dataflow.acquireQuotaTimeout プロパティを設定して、このタイムアウト値を指定します。アプリケーションの作成時またはアプリケーションの実行時に、「拡張オプション」でプロパティを設定します。例:
タイムアウト時間を表すにはh を使用し、タイムアウト時間を表すにはm またはmin を使用します。
ノート: |
すべて |
spark.archives#conda | spark.archives構成は、オープン・ソースの対応する機能とまったく同じ機能を提供します。Condaをパッケージ・マネージャとして使用してOCIデータ・フローでPySparkジョブを送信する場合は、データ・フローがアーティファクトを適切なディレクトリに抽出できるように、アーティファクト・パッケージ・エントリに#condaをアタッチします。
詳細は、「Conda Packとデータ・フローの統合」を参照してください。 |
3.2.1 以上 |
spark.dataflow.streaming.restartPolicy.restartPeriod | ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。 このプロパティは、ストリーミング・アプリケーションの再起動間の最小遅延を指定します。一時的な問題が特定の期間に多くの再起動を引き起こすのを防ぐために、このデフォルト値は3分に設定されます。 |
3.0.2 、3.2.1以上 |
spark.dataflow.streaming.restartPolicy.maxConsecutiveFailures | ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。 このプロパティは、データ・フローが失敗したストリーミング・アプリケーションの再起動を停止する前に発生する可能性のある連続する失敗の最大数を指定します。このデフォルト値は10です。 |
3.0.2 、3.2.1以上 |
spark.sql.streaming.graceful.shutdown.timeout | ノート:「データ・フロー・ストリーミング」タイプに適用できるのは、実行のみです。 データ・フロー・ストリーミング実行では、停止期間を使用してチェックポイント・データを保持し、前の状態から正しく再起動します。この構成では、データ・フロー・ストリーミング実行が、強制的に停止される前にチェックポイント状態を正常に保持するために使用できる最大時間を指定します。デフォルトは30分です。 |
3.0.2 、3.2.1以上 |
spark.oracle.datasource.enabled | Spark Oracleデータソースは、Spark JDBCデータソースの拡張です。SparkからOracleデータベースへの接続が簡略化されます。Spark Oracleデータベースは、SparkのJDBCデータソースに用意されているすべてのオプションに加えて、次のものを提供することで、SparkからOracleデータベースへの接続を簡素化します:
詳細は、Spark Oracleデータソースを参照してください。 |
3.0.2 以上 |
spark.scheduler.minRegisteredResourcesRatio |
デフォルト: 1.0 ノート: 0.0から1.0の倍数で指定します。 ジョブ・レイヤーで実行をスケジュールする前に待機する合計予想リソース当たりの登録済リソースの最小比率。このパラメータを調整するには、ジョブの起動を高速化し、適切なリソース可用性を確保する間のトレードオフが必要です。 たとえば、0.8という値は、待機しているリソースの80%を意味します。 |
すべての |
spark.dataflow.overAllocationRatio |
デフォルト: 1.0 ノート: 1.0以上の倍数で指定します。 インスタンスのマイナー部分の作成に失敗したことによるジョブの失敗を回避するための過剰なリソース作成の比率。追加のインスタンス作成は、作成フェーズ中にのみ請求され、ジョブの開始後に終了します。 たとえば、値が1.1の場合、顧客ジョブの予想されるリソースに対応するために10%以上のリソースが作成されたことを意味します。 |
すべての |