Data Flow zu Spark 3.2.1 migrieren

Führen Sie die folgenden Schritte aus, um Data Flow zu Spark 3.2.1 zu migrieren.

Um Data Flow mit Delta Lakes 1.2.1 zu verwenden und in Conda Pack zu integrieren, müssen Sie mindestens die Spark-Version 3.2.1 mit Data Flow verwenden.

Befolgen Sie die Anweisungen in der Spark 3.2.1-Migrationsdokumentation aus, um ein Upgrade auf Spark 3.2.1 auszuführen.

Neben den Informationen zu unterstützten Versionen in Vorbereitung für Data Flow sind die folgenden Library-Versionsversionen, die von Data Flow mit Spark 3.2.1 und Spark 3.0.2 mindestens und nur unterstützte Versionen enthalten.
Hinweis

Erstellen Sie Anwendungen mit den für Spark 3.0.2 aufgeführten Versionen, bevor Sie zu Spark 3.2.1 migrieren.
Unterstützte Versionen für Spark 3.2.1 und Spark 3.0.2.
Library Spark 3.2.1 Spark 3.0.2
Python 3.8.13 3.6.8
Java 11 1.8.0_321
Hadoop (Mindestversion) 3.3.1 3.2.0
Scala 2.12.15 2.12.10
OCI-hdfs (Mindestversion) 3.3.1.0.3.2 3.2.1.3
oci-java-sdk (Mindestversion) 2,45 1.25.2
Hinweis

Informationen zum Maximieren der Performance mit Spark 3.2.1 finden Sie unter Performanceeinstellungen für Spark 3.2.1.

Performanceeinstellungen für Spark 3.2.1

Wenn Sie Spark 3.2.1 verwenden, legen Sie zwei Parameter fest, um die Performance zu maximieren.

Standardmäßig verwendet das Oracle Cloud Infrastructure-Java-SDK die ApacheConnector. Dies kann zu Pufferung von Anforderungen im Speicher führen. Verwenden Sie stattdessen Jersey HttpurlConnector, indem Sie die folgenden Parameter festlegen:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true