自動スケーリング
リソースを節約し、管理時間を減らすために、データ・フローでSpark動的割当てが有効になりました。
データ処理のリソース・プランニングは複雑なタスクです。リソース使用量とデータ量は相関関係にあります。日々のデータ量が変わるということは、必要な計算リソースも変わるということです。
データ・フロー・クラスタは、エグゼキュータの数を固定するのではなく、数に幅を持たせて定義できます。Sparkには、アプリケーションが占有するリソースを、ワークロードに基づいて動的に調整するメカニズムがあります。アプリケーションでは、使用されなくなったリソースを放棄し、後から必要になったときに再度リクエストすることが可能です。請求の対象となるのは、アプリケーションでリソースが使用された時間のみです。返されたリソースは請求されません。