Création d'une application spark-submit dans Data Flow

Créez une application de soumission Spark dans Data Flow.

  • Téléchargez les fichiers soumis par Spark vers Oracle Cloud Infrastructure Object Storage. Pour plus d'informations, reportez-vous à Configuration de la banque d'objets.
    1. Sur la page Flux de données, dans le menu de gauche, sélectionnez Applications. Si vous avez besoin d'aide pour rechercher la page Data Flow, reportez-vous à Liste des applications.
    2. Sur la page Applications, sélectionnez Créer une application.
    3. Dans le panneau Créer une application, entrez le nom de l'application et éventuellement une description qui peut vous aider à la rechercher.
    4. Sous Configuration de ressource, indiquez les valeurs suivantes. Pour vous aider à calculer le nombre de ressources dont vous avez besoin, reportez-vous à Dimensionnement de l'application Data Flow.
      1. Sélectionnez la version de Spark.
      2. (Facultatif) Sélectionnez un pool.
      3. Pour Forme de pilote, sélectionnez le type de noeud de cluster à utiliser pour héberger le pilote Spark.
      4. (Facultatif) Si vous avez sélectionné une forme flexible pour le pilote, personnalisez le nombre d'OCPU et la quantité de mémoire.
      5. Pour Forme d'exécuteur, sélectionnez le type de noeud de cluster à utiliser pour héberger chaque exécuteur Spark.
      6. (Facultatif) Si vous avez sélectionné une forme flexible pour l'exécuteur, personnalisez le nombre d'OCPU et la quantité de mémoire.
      7. (Facultatif) Pour activer l'utilisation de l'allocation dynamique Spark (redimensionnement automatique), sélectionnez Activer le redimensionnement automatique.
      8. Entrez le nombre d'exécuteurs dont vous avez besoin. Si vous avez choisi d'utiliser le redimensionnement automatique, entrez un nombre minimal et un nombre maximal d'exécuteurs.
    5. Sous Configuration de l'application, indiquez les valeurs suivantes.
      1. (Facultatif) Si l'application est conçue pour Spark Streaming, sélectionnez Spark Streaming.
      2. Sélectionnez Utiliser les options de soumission Spark. Les options prises en charge sont les suivantes :
        • --py-files
        • --files
        • --jars
        • --class
        • --conf : propriété de configuration arbitraire Spark au format key=value. Si une valeur contient des espaces, placez-la entre guillemets, "key=value". Transmettez plusieurs configurations en tant qu'arguments distincts, par exemple :
           --conf <key1>=<value1> --conf <key2>=<value2>
        • application-jar : chemin vers un fichier JAR packagé incluant votre application et toutes ses dépendances.
        • application-arguments : arguments transmis à la méthode principale de votre classe principale.
      3. Dans la zone de texte Options de soumission Spark, entrez les options au format suivant :
         --py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip>
         --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json
         --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar
         --conf spark.sql.crossJoin.enabled=true
          oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
        Par exemple, pour employer une source de données Oracle Spark, utilisez l'option suivante :
        --conf spark.oracle.datasource.enable=true
        Important

        Data Flow ne prend pas en charge les URI commençant par local:// ou hdfs://. L'URI doit commencer par oci://. Par conséquent, tous les fichiers (y compris main-application) doivent être dans Oracle Cloud Infrastructure Object Storage et vous devez utiliser le nom de domaine qualifié complet pour chaque fichier.
      4. (Facultatif) Si vous disposez d'un fichier archive.zip, téléchargez archive.zip vers Oracle Cloud Infrastructure Object Storage et indiquez le chemin d'accès correspondant dans URI de l'archive. Pour ce faire, vous avez le choix entre deux méthodes :
        • Sélectionnez le fichier dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
        • Sélectionnez Entrer le chemin de fichier manuellement et saisissez le nom du fichier et son chemin à l'aide du format suivant :
           oci://<bucket_name>@<namespace_name>/<file_name>
      5. Sous Emplacement du journal d'application, indiquez l'emplacement d'inclusion d'Oracle Cloud Infrastructure Logging de l'une des manières suivantes :
        • Sélectionnez le bucket dataflow-logs dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
        • Sélectionnez Saisir le chemin du bucket manuellement et saisissez le chemin du bucket vers ce dernier à l'aide du format suivant :
           oci://dataflow-logs@<namespace_name>
        • Ne sélectionnez pas Entrez le chemin du bucket manuellement et sélectionnez le fichier.
      6. (Facultatif) Sélectionnez le metastore dans la liste. Si le metastore se trouve dans un autre compartiment, sélectionnez d'abord Modifier le compartiment, sélectionnez un autre compartiment, puis choisissez le metastore dans la liste. Le champ Emplacement de la table gérée par défaut est automatiquement renseigné en fonction du métastore.
    6. (Facultatif) Dans la section Balises, ajoutez des balises au <resourceType>. Si vous êtes autorisé à créer une ressource, vous disposez également des droits d'accès nécessaires pour lui appliquer des balises à forme libre. Pour appliquer une balise defined, vous devez être autorisé à utiliser la balise namespace. Pour plus d'informations sur le balisage, reportez-vous à Balises de ressource. Si vous n'êtes pas sûr d'appliquer des balises, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des balises ultérieurement.
    7. (Facultatif) Sélectionnez Afficher les options avancées et fournissez les valeurs suivantes.
      1. (Facultatif) Sélectionnez Utiliser l'authentification du principal de ressource pour activer un démarrage plus rapide ou si vous prévoyez que l'exécution durera plus de 24 heures. Des stratégies de principal de ressource doivent être configurées.
      2. Cochez Activer Delta Lake pour utiliser Delta Lake.
        1. Sélectionnez la version Delta Lake. La valeur sélectionnée est reflétée dans la paire clé/valeur des propriétés de configuration Spark.
        2. Sélectionnez le groupe de journaux.
      3. (Facultatif) Sélectionnez Activer la source de données Oracle Spark pour utiliser une source de données Oracle Spark.
      4. (Facultatif) Dans la section Journaux, sélectionnez les groupes de journaux et les journaux d'application pour Oracle Cloud Infrastructure Logging. Si les groupes de journaux se trouvent dans un autre compartiment, sélectionnez Modifier le compartiment.
      5. Ajoutez des propriétés de configuration Spark. Saisissez une paire clé-valeur.
      6. Sélectionnez + Une autre propriété pour ajouter une autre propriété de configuration.
      7. Répétez les étapes b et c jusqu'à ce que vous ayez ajouté toutes les propriétés de configuration.
      8. Remplacez la valeur par défaut pour le bucket d'entrepôt en renseignant le URI de bucket d'entrepôt au format suivant :
        oci://<warehouse-name>@<tenancy>
      9. Pour Choisir un accès réseau, sélectionnez l'une des options suivantes :
        • Si vous attachez une adresse privée à Data Flow, sélectionnez le bouton radio Accès sécurisé au sous-réseau privé. Sélectionnez l'adresse privée dans la liste qui apparaît.
          Remarque

          Vous ne pouvez pas utiliser une adresse IP pour vous connecter à l'adresse privée. Vous devez utiliser le nom de domaine qualifié complet.
        • Si vous n'utilisez pas d'adresse privée, sélectionnez le bouton radio Accès Internet (aucun sous-réseau).
      10. (Facultatif) Pour activer la collecte de lignage des données :
        1. Sélectionnez Activer la collecte de lignage des données.
        2. Sélectionnez Entrer manuellement le catalogue de données ou sélectionnez une instance Data Catalog dans un compartiment configurable de la location en cours.
        3. (Facultatif) Si vous avez sélectionné Entrer manuellement dans le catalogue de données à l'étape précédente, entrez les valeurs pour OCID de location de catalogue de données, OCID de compartiment de catalogue de données et ODID d'instance de catalogue de données.
      11. (Facultatif) Pour les traitements batch uniquement, pour Durée d'exécution maximale en minutes, entrez une valeur comprise entre 60 (1 heure) et 10080 (7 jours). Si vous n'entrez pas de valeur, l'exécution soumise continue jusqu'à ce qu'elle réussisse, échoue, soit annulée ou atteigne sa durée maximale par défaut (24 heures).
    8. Sélectionnez Créer pour créer l'application ou Enregistrer en tant que pile pour la créer ultérieurement.
      Pour modifier les valeurs de Nom et URL de fichier ultérieurement, reportez-vous à Modification d'une application.
  • Utilisez la commande create et les paramètres requis pour créer une application :

    oci data-flow application create [OPTIONS]
    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
  • Exécutez l'opération CreateApplication pour créer une demande.