Création d'un ensemble de données

Pour créer un ensemble de données dans Data Labeling, procédez comme suit :

    1. Ouvrez le menu, et cliquez sur Analytics et IA. Sous Machine Learning, cliquez sur Data Labeling
    2. Cliquez sur Ensembles de données.
    3. Cliquez sur Créer un ensemble de données.
    4. Dans la page Ajouter les détails de l'ensemble de données, renseignez les champs comme suit :
      • Nom : attribuez un nom approprié à l'ensemble de données.
      • Description : (facultatif) donnez à l'ensemble de données une description pertinente que vous pourrez utiliser pour le rechercher.
      • Instructions d'étiquetage : (facultatif) entrez les instructions et les instructions de l'équipe qui étiquete les données.
      • Format d'ensemble de données : cliquez sur images, texte ou documents, selon que vous souhaitez libeller des images, des textes ou des documents.
      • Type de fichier : si vous sélectionnez Texte comme format d'ensemble de données, ce champ s'affiche. Sélectionnez TXT ou CSV, selon que vous voulez étiqueter un fichier texte ou un fichier CSV.
      • Classe d'annotation : sélectionnez le mode d'annotation des images, du texte ou des documents.
        • Libellés uniques : classe les images, le texte ou les documents en une seule classe.
        • Libellés multiples : classe les images, le texte ou les documents en classes.
        • Détection d'objet : pour les images uniquement. Dessine des boîtes englobantes autour de l'objet dans les images.
        • Extraction d'entité : pour le texte uniquement. Met le texte en évidence et le nomme dans des classes.
        • Valeur clé : pour les documents uniquement. Utilise la reconnaissance optique des caractères (OCR) de Document Understanding pour identifier et extraire des informations à partir de documents.
      • Balises : (facultatif) pour appliquer des balises à l'ensemble de données, sélectionnez un espace de noms de balise (pour les balises définies), renseignez-le, puis indiquez une clé de balise et une valeur. Ajoutez des balises supplémentaires si nécessaire. Pour plus d'informations sur le balisage, reportez-vous à Présentation de Tagging.
      Remarque

      Le système génère deux balises, CreatedBy et CreatedOn, lorsque vous créez un ensemble de données.
    5. Cliquez sur Suivant.
      Sur la page Ajouter des fichiers et des libellés, vous indiquez si vous téléchargez les fichiers de l'ensemble de données vers Object Storage (passez à l'étape 6) ou si vous utilisez des fichiers qui se trouvent déjà dans Object Storage (passez à l'étape 7).
    6. Pour télécharger les fichiers de l'ensemble de données vers Object Storage, cliquez sur Télécharger des fichiers locaux et procédez comme suit :
      Remarque

      Vous ne pouvez pas charger plus de 100 fichiers locaux à la fois dans la console. Le nombre de fichiers sélectionnés est affiché. Pour charger davantage de fichiers à la fois, chargez-les dans Object Storage avant de créer l'ensemble de données, ou utilisez l'interface de ligne de commande ou le kit SDK.
      1. Dans l'emplacement Object Storage, indiquez la destination Object Storage (bucket) dans laquelle charger les fichiers locaux :
        • URL Object Storage : champ en lecture seule, déjà rempli.
        • Compartiment : sélectionnez le compartiment qui contient le bucket.
        • Espace de noms : rempli automatiquement en fonction du compartiment sélectionné.
        • Bucket : sélectionnez un bucket dans la liste. Si la liste est longue, vous pouvez choisir d'afficher tous les buckets. Si vous cliquez dessus, un panneau répertoriant tous les buckets disponibles est affiché. Si vous devez créer un bucket, cliquez sur le lien dans l'info-bulle en regard du libellé Bucket. Vous accédez alors à la page de liste Buckets dans le service Object Storage. Reportez-vous à Création d'un bucket.
        • (Facultatif) Préfixe : saisissez une chaîne de préfixe à ajouter au début des noms ou des chemins des fichiers.
      2. Si les fichiers à charger sont au format CSV, fournissez les informations suivantes sous Délimiteur :
        • Délimiteur de colonnes : sélectionnez le type de séparateur des colonnes. Comma est la valeur par défaut. Si vous choisissez Personnalisé, entrez le séparateur dans Délimiteur de colonne personnalisé.
        • Délimiteur de ligne : (Facultatif) Cochez cette case pour Délimiteur de ligne, puis entrez un délimiteur de ligne dans Délimiteur de ligne personnalisé. Si vous n'entrez pas de valeur, le délimiteur est détecté dans le fichier CSV.
        • Caractère d'échappement : (facultatif) cochez cette case, puis sélectionnez un caractère d'échappement. Si vous choisissez Personnalisé, entrez le caractère dans Caractère d'échappement personnalisé. Si vous n'entrez pas de valeur, aucun texte n'est échappé.
      3. Sous Fichiers sélectionnés, faites glisser ou sélectionnez les fichiers à charger dans le bucket.
        Remarque

        Tous les fichiers doivent être encodés en UTF-8 et avoir les mêmes en-têtes et index de colonne. Sinon, l'ensemble de données passe à l'état Attention requise. Reportez-vous à Formats de fichier pris en charge pour obtenir la liste des formats de fichier autorisés.
      4. Sélectionnez un fichier pour afficher un aperçu de son contenu.
        Remarque

        Seules les cinq premières colonnes et lignes des fichiers CSV sont affichées.
      5. (Pour les fichiers CSV.) Sélectionnez le nom de la colonne que vous voulez étiqueter. Si la colonne n'a pas de nom, le numéro d'index est affiché à la place.
      6. Sous Ajouter des libellés, saisissez les libellés à utiliser pour annoter l'ensemble de données. Une fois le libellé saisi, appuyez sur Entrée.
      7. Cliquez sur Suivant et passez à l'étape 8.
    7. Pour charger des fichiers qui existent déjà dans un bucket Object Storage, cliquez sur Sélectionner à partir d'Object Storage et suivez les étapes suivantes :
      1. Dans Emplacement Object Storage, indiquez la destination Object Storage (bucket) pour remplir les fichiers à utiliser pour l'ensemble de données :
        • URL Object Storage : champ en lecture seule, déjà rempli.
        • Compartiment : sélectionnez le compartiment qui contient le bucket.
        • Espace de noms : rempli automatiquement en fonction du compartiment sélectionné.
        • Bucket : sélectionnez un bucket dans la liste. Si la liste est longue, vous pouvez choisir d'afficher tous les buckets. Si vous cliquez dessus, un panneau répertoriant tous les buckets disponibles est affiché. Si vous devez créer un bucket, cliquez sur le lien dans l'info-bulle en regard du libellé Bucket. Vous accédez alors à la page de liste Buckets dans le service Object Storage. Reportez-vous à Création d'un bucket.
        • (Facultatif) Préfixe : saisissez une chaîne de préfixe à ajouter au début des noms ou des chemins des fichiers.
        Les fichiers sont répertoriés sous Fichiers sélectionnés. Reportez-vous à Formats de fichier pris en charge pour obtenir la liste des formats de fichier autorisés.
      2. (Facultatif) Si vous utilisez les fichiers au format CSV, fournissez les informations suivantes sous Délimiteur :
        • Sélectionnez le délimiteur de colonnes : sélectionnez le type de délimiteur pour les colonnes. Comma est la valeur par défaut. Si vous choisissez Personnalisé, entrez-le dans Délimiteur de colonne personnalisé.
        • Délimiteur de ligne : (Facultatif) Cochez cette case, puis entrez un délimiteur de ligne dans Délimiteur de ligne personnalisé. Si vous n'entrez pas de valeur, le délimiteur est détecté dans le fichier CSV.
        • Caractère d'échappement : (facultatif) cochez cette case, puis sélectionnez un caractère d'échappement. Si vous choisissez Personnalisé, entrez le caractère dans Caractère d'échappement personnalisé. Si vous n'entrez pas de valeur, aucun texte n'est échappé.
      3. Sous Fichiers sélectionnés, sélectionnez un fichier pour afficher un aperçu de son contenu.
        Remarque

        Seules les cinq premières colonnes et lignes sont affichées pour les fichiers CSV.
      4. (Pour les fichiers CSV uniquement) Pour la colonne que vous souhaitez étiqueter, sélectionnez son nom. Si la colonne n'a pas de nom, le numéro d'index est affiché à la place.
        Remarque

        Tous les fichiers doivent être encodés en UTF-8 et avoir les mêmes en-têtes et index de colonne. Sinon, l'ensemble de données passe à l'état Attention requise. Reportez-vous à Formats de fichier pris en charge pour obtenir la liste des formats de fichier autorisés.
      5. Sous Ajouter des libellés, saisissez les libellés à utiliser pour annoter l'ensemble de données. Une fois le libellé saisi, appuyez sur Entrée.
      6. Cliquez sur Suivant.
    8. Sur la page Vérifier, vérifiez les informations que vous avez entrées. Si les détails de l'ensemble de données doivent être modifiés, cliquez sur Modifier. Si vous devez revenir en arrière et modifier des valeurs, cliquez sur Modifier.
    9. Pour créer l'ensemble de données maintenant, cliquez sur Créer.
      Les enregistrements sont générés lors de la création de l'ensemble de données. L'ensemble de données passe à l'état Mise à jour pendant la génération des enregistrements. Une fois les enregistrements créés, les fichiers utilisés apparaissent sur la page de détails de l'ensemble de données.
    10. Pour créer l'ensemble de données ultérieurement à l'aide de Resource Manager et de Terraform, cliquez sur Enregistrer en tant que pile pour enregistrer la définition de ressource en tant que configuration Terraform.
      Pour plus d'informations sur l'enregistrement de piles à partir de définitions de ressource, reportez-vous à Création d'une pile à partir d'une page de création de ressource.
  • Utilisez la commande create de l'ensemble de données et les paramètres requis pour créer un ensemble de données :
    oci data-labeling-service dataset create [OPTIONS]
    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
  • Exécutez l'opération CreateDataset pour créer un ensemble de données.