Data Flow zu Spark 3.2.1 migrieren
Führen Sie die folgenden Schritte aus, um Data Flow zu Spark 3.2.1 zu migrieren.
Um Data Flow mit Delta Lakes 1.2.1 zu verwenden und in Conda Pack zu integrieren, müssen Sie mindestens die Spark-Version 3.2.1 mit Data Flow verwenden.
Befolgen Sie die Anweisungen in der Spark 3.2.1-Migrationsdokumentation aus, um ein Upgrade auf Spark 3.2.1 auszuführen.
Neben den Informationen zu unterstützten Versionen in Vorbereitung für Data Flow sind die folgenden Library-Versionsversionen, die von Data Flow mit Spark 3.2.1 und Spark 3.0.2 mindestens und nur unterstützte Versionen enthalten.
Hinweis
Erstellen Sie Anwendungen mit den für Spark 3.0.2 aufgeführten Versionen, bevor Sie zu Spark 3.2.1 migrieren.
Erstellen Sie Anwendungen mit den für Spark 3.0.2 aufgeführten Versionen, bevor Sie zu Spark 3.2.1 migrieren.
| Library | Spark 3.2.1 | Spark 3.0.2 |
|---|---|---|
| Python | 3.8.13 | 3.6.8 |
| Java | 11 | 1.8.0_321 |
| Hadoop (Mindestversion) | 3.3.1 | 3.2.0 |
| Scala | 2.12.15 | 2.12.10 |
| OCI-hdfs (Mindestversion) | 3.3.1.0.3.2 | 3.2.1.3 |
| oci-java-sdk (Mindestversion) | 2,45 | 1.25.2 |
Hinweis
Informationen zum Maximieren der Performance mit Spark 3.2.1 finden Sie unter Performanceeinstellungen für Spark 3.2.1.
Informationen zum Maximieren der Performance mit Spark 3.2.1 finden Sie unter Performanceeinstellungen für Spark 3.2.1.
Performanceeinstellungen für Spark 3.2.1
Wenn Sie Spark 3.2.1 verwenden, legen Sie zwei Parameter fest, um die Performance zu maximieren.
Standardmäßig verwendet das Oracle Cloud Infrastructure-Java-SDK die ApacheConnector. Dies kann zu Pufferung von Anforderungen im Speicher führen. Verwenden Sie stattdessen Jersey HttpurlConnector, indem Sie die folgenden Parameter festlegen:
spark.executorEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true
spark.driverEnv.OCI_JAVASDK_JERSEY_CLIENT_DEFAULT_CONNECTOR_ENABLED=true