データセットの作成
データ・ラベル付けでデータセットを作成するには、このステップに従います。
- ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「機械学習」で、「データ・ラベリング」をクリックします。
- 「データセット」をクリックします。
- 「データセットの作成」をクリックします。
-
「データセット詳細の追加」ページで、次のようにフィールドに値を移入します:
- 名前: データセットに適切な名前を付けます。
- 説明: (オプション)データセットの検索に使用できる関連する説明を指定します。
- ラベル付け手順: (オプション)データにラベル付けするチームの指示および指示を入力します。
- データセットの形式: イメージ、テキスト、ドキュメントのいずれにラベルを付けるかに応じて、「イメージ」、「テキスト」または「ドキュメント」をクリックします。
- ファイル・タイプ: データセット・フォーマットとして「テキスト」を選択すると、このフィールドが表示されます。テキスト・ファイルとCSVファイルのどちらにラベルを付けるかに応じて、
TXT
またはCSV
を選択します。 - 注釈クラス: イメージ、テキストまたはドキュメントの注釈付け方法を選択します。
- 単一ラベル: イメージ、テキストまたはドキュメントを1つのクラスに分類します。
- 複数ラベル: イメージ、テキストまたはドキュメントを1つ以上のクラスに分類します。
- オブジェクト検出: イメージのみ。イメージ内のオブジェクトの周囲に境界ボックスを描画します。
- エンティティ抽出: テキストのみ。テキストを強調表示して1つ以上のクラスにラベル付けします。
- キー値: ドキュメントの場合のみ。Document Understandingの光学文字認識(OCR)を使用して、ドキュメントから情報を識別して抽出します。
- タグ: (オプション)データセットにタグを適用するには、タグ・ネームスペース(定義済タグ)を選択し、移入してから、タグ・キーおよび値を指定します。必要に応じてタグを追加します。タグ付けの詳細は、タグ付けの概要を参照してください。
ノート
データセットを作成すると、2つのタグ(CreatedByおよびCreatedOn)が生成されます。 -
「次へ」をクリックします。
「ファイルおよびラベルの追加」ページで、データセットのファイルをオブジェクト・ストレージにアップロードするか(ステップ6に進む)、またはすでにオブジェクト・ストレージにあるファイルを使用するか(ステップ7に進む)を指定します。
-
データセットのファイルをオブジェクト・ストレージにアップロードするには、「ローカル・ファイルのアップロード」をクリックし、次のステップに従います:
ノート
コンソールでは一度に100個までのローカル・ファイルをロードできます。選択したファイルの数が表示されます。さらに多くのファイルを一度にロードするには、データセットを作成する前にオブジェクト・ストレージにロードするか、CLIまたはSDKを使用します。- オブジェクト・ストレージの場所で、ローカル・ファイルをロードするオブジェクト・ストレージの宛先(バケット)を指定します:
- オブジェクト・ストレージURL: 読取り専用フィールドはすでに移入されています。
- コンパートメント: バケットを含むコンパートメントを選択します。
- ネームスペース: 選択したコンパートメントに基づいて自動的に移入されます。
- バケット: リストからバケットを選択します。リストが長い場合は、すべてのバケットの表示を選択できます。それをクリックすると、使用可能なすべてのバケットがリストされたパネルが開きます。バケットを作成する必要がある場合は、「バケット」ラベルの横にあるツール・チップ内のリンクをクリックすると、オブジェクト・ストレージ・サービスの「バケット」リスト・ページに移動します。バケットの作成を参照してください。
- (オプション)接頭辞: ファイルの名前またはパスの先頭に追加する接頭辞文字列を入力します。
- ロードするファイルがCSV形式の場合は、「デリミタ」の下に次の情報を指定します。
- 列区切り記号: 列の区切り記号のタイプを選択します。デフォルトは「カンマ」です。「カスタム」を選択した場合は、「カスタム列デリミタ」にデリミタを入力します。
- ライン・デリミタ: (オプション)このチェック・ボックスで「ライン・デリミタ」を選択し、「カスタム行デリミタ」にライン・デリミタを入力します。値を入力しない場合、CSVファイルからデリミタが検出されます。
- エスケープ文字: (オプション)このチェック・ボックスを選択し、エスケープ文字を選択します。「カスタム」を選択した場合は、「カスタム・エスケープ文字」にその文字を入力します。値を入力しない場合、どのテキストもエスケープされません。
- 「選択したファイル」で、バケットにロードするファイルをドラッグまたは選択します。 ノート
すべてのファイルはUTF-8でエンコードされ、同じ列ヘッダーおよび索引を持つ必要があります。そうでない場合、データセットは「要注意」状態になります。許可されるファイル形式のリストは、「サポートされているファイル形式」を参照してください。 - コンテンツのプレビューを表示するファイルを選択します。 ノート
CSVファイルでは、最初の5つの列と行のみが表示されます。 - (CSVファイルの場合)ラベルを付ける列に対して、その列名を選択します。列に名前がない場合は、かわりに索引番号が表示されます。
- 「ラベルの追加」で、データセットの注釈付けに使用するラベルを入力します。各ラベルを入力した後、Enterを押します。
- 「次へ」をクリックして、ステップ8に進みます。
- オブジェクト・ストレージの場所で、ローカル・ファイルをロードするオブジェクト・ストレージの宛先(バケット)を指定します:
-
オブジェクト・ストレージ・バケットにすでに存在するファイルをロードするには、「オブジェクト・ストレージから選択」をクリックし、次のステップに従います:
- 「オブジェクト・ストレージの場所」で、オブジェクト・ストレージの宛先(バケット)を指定して、データセットに使用するファイルを移入します:
- オブジェクト・ストレージURL: 読取り専用フィールドはすでに移入されています。
- コンパートメント: バケットを含むコンパートメントを選択します。
- ネームスペース: 選択したコンパートメントに基づいて自動的に移入されます。
- バケット: リストからバケットを選択します。リストが長い場合は、すべてのバケットの表示を選択できます。それをクリックすると、使用可能なすべてのバケットがリストされたパネルが開きます。バケットを作成する必要がある場合は、「バケット」ラベルの横にあるツール・チップ内のリンクをクリックすると、オブジェクト・ストレージ・サービスの「バケット」リスト・ページに移動します。バケットの作成を参照してください。
- (オプション)接頭辞: ファイルの名前またはパスの先頭に追加する接頭辞文字列を入力します。
- (オプション)ファイルを使用する場合は、「デリミタ」の下に次の情報を指定します。
- 列デリミタの選択: 列のデリミタのタイプを選択します。デフォルトは「カンマ」です。「カスタム」を選択した場合は、「カスタム列デリミタ」に入力します。
- ライン・デリミタ: (オプション)このチェック・ボックスを選択し、「カスタム行デリミタ」にライン・デリミタを入力します。値を入力しない場合、CSVファイルからデリミタが検出されます。
- エスケープ文字: (オプション)このチェック・ボックスを選択し、エスケープ文字を選択します。「カスタム」を選択した場合は、「カスタム・エスケープ文字」に文字を入力します。値を入力しない場合、どのテキストもエスケープされません。
- 「選択したファイル」で、ファイルの内容のプレビューを表示するファイルを選択します。ノート
CSVファイルには、最初の5つの列と行のみが表示されます。 - (CSVファイルの場合のみ)ラベルを付けるカラムについて、カラム名を選択します。列に名前がない場合は、かわりに索引番号が表示されます。ノート
すべてのファイルはUTF-8でエンコードされ、同じ列ヘッダーおよび索引を持つ必要があります。そうでない場合、データセットは「要注意」状態になります。許可されるファイル形式のリストは、「サポートされているファイル形式」を参照してください。 - 「ラベルの追加」で、データセットの注釈付けに使用するラベルを入力します。各ラベルを入力した後、Enterを押します。
- 「次へ」をクリックします。
- 「オブジェクト・ストレージの場所」で、オブジェクト・ストレージの宛先(バケット)を指定して、データセットに使用するファイルを移入します:
- 「Review」ページで、入力した情報を確認します。データセットの詳細を編集する必要がある場合は、「編集」をクリックします。戻って値を変更する必要がある場合は、「編集」をクリックします。
-
今すぐデータセットを作成するには、「作成」をクリックします。
レコードは、データセットの作成時に生成されます。レコードの生成中に、データセットの状態が「更新中」に変わります。レコードが作成された後にのみ、使用されるファイルが「データセット詳細」ページに表示されます。
-
リソース・マネージャおよびTerraformを使用して後でデータセットを作成するには、「スタックとして保存」をクリックして、リソース定義をTerraform構成として保存します。
リソース定義からのスタックの保存の詳細は、「リソース作成ページからのスタックの作成」を参照してください。
データセットを作成するには、データセット createコマンドと必要なパラメータを使用します。 CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。oci data-labeling-service dataset create [OPTIONS]
CreateDataset操作を実行してデータセットを作成します。