カスタム・モデル・データセット
カスタム・モデルでサポートされているデータセット、およびデータセットをサポートされている形式に変換する方法を確認します。
カスタム・テキスト分類に許可されるデータセット
カスタム・テキスト分類モデルのラベル・データは、次の2つの方法で提供できます。
- Data Labelingプロジェクト
- Comma- Separated Value (
.csv
)ファイル
- CSVファイルの要件
-
-
最初の行は、次の2列名を含むヘッダーである必要があります。
text
: 分類されるテキストを取得します。labels
: 1つ以上の割当て済クラスを取得します。マルチラベル分類データセットの場合、複数のクラス名を|
記号で結合することによって指定できます。
- ヘッダー行の後の全ての行に研修レコードが含まれます。
- ファイルに2つ以上の列がある場合は、
text
列とlabels
列のみがモデルのトレーニングに使用されます。 -
CSVファイル・エンコーディングの場合は、UTF-8を使用します。Excelを使用する場合は、ファイルをCSV UTF-8 (カンマ区切り)(.CSV)として保存します。
- デリミタには、カンマ(
,
)を使用します。 - エスケープ文字の場合は、
U+0022
のUnicode文字でも知られている二重引用符("
)を使用します。たとえば、Excelで、次のテキストを入力した場合です。
This is a "double quote" sentence
前述の文は、次のようにCSVに格納されます。
"This is a ""double quote"" sentence"
単一ラベルのテキスト分類のCSVファイルの例:
text,labels Windows OS -unable to print,Network Printer Failure Citrix Account frequently locking,Account (Password reset) Pull print queue not working ,Application Component Disconnect wifi disable and lan is disconnected at the desktop,Hardware Device Failure
複数ラベルのテキスト分類のCSVファイルの例:Windows OS -unable to print,Network Printer Failure Pull print queue not working ,Application Component Disconnect|Network Printer Failure wifi disable and lan is disconnected at the desktop,Hardware Device Failure|Network Connection Issue
-
カスタムNERに許可されるデータセット・フォーマット
カスタムNERモデルのラベル・データは、次の2つの方法で提供できます。
- Data Labelingプロジェクト
- JSON行フォーマット(
.jsonl
)。
- JSONファイルの要件
-
JSONファイルにはトレーニング・データは含まれていません。かわりに、JSONファイルは、ラベルなしデータを含むファイルへのラベルおよびポインタ(相対パス)を含むマニフェスト・ファイルです。
JSON形式はJSON行(JSONL)形式であり、各行は単一のJSONオブジェクトです。
- オブジェクトの最初の行は、ラベルまたはクラスのセットと注釈ファイルのタイプを示します。
- その後の行にはすべて、研修レコードの説明があります。
-
マニフェスト・ファイル
(.jsonl)
と同じディレクトリにすべてのテキスト・ファイルを保存し、トレーニング・レコードにファイルに名前を付けます。
- スキーマの定義
-
- 最初の行はヘッダー行です。ファイル・タイプを説明するJSONオブジェクトが含まれています。
- 後続の行には、ラベル付きレコードを表すJSONオブジェクトが含まれます。
- ヘッダー行フォーマット
-
フィールド タイプ 説明 labelsSet
オブジェクトの配列です。 注釈でサポートされているエンティティのセットを示す文字列メンバー
"name"
を持つオブジェクト。すべてのエンティティをここにリストします。annotationFormat
文字列 NERデータセットには "ENTITY_EXTRACTION"
を使用します。datasetFormatDetails
オブジェクト 注釈付けされるデータのタイプを示す文字列メンバー "formatType"
を持つオブジェクト。「言語」のformatType
の値を"TEXT"
に設定します。 - JSONスキーマの例:
-
{ "labelsSet": [ { "name": "Label1" }, { "name": "Label2" }, { "name": "Label3" }, { "name": "Label4" } ], "annotationFormat": "ENTITY_EXTRACTION", "datasetFormatDetails": { "formatType": "TEXT" } }
- ラベル付きレコード・フォーマット
-
フィールド タイプ 説明 sourceDetails
オブジェクト 注釈を付けるファイルを指す文字列メンバー
path
を持つオブジェクト。ファイル・パスは、
json
ファイルの場所に相対的です。annotations
オブジェクト 注釈を説明する複合オブジェクト。 entities
配列(オブジェクト) レコードで識別されるエンティティのリスト。 entityType
文字列 エンティティ注釈のタイプ。値には、NERに "TEXTSELECTION"
を使用します。labels
配列(オブジェクト) 配列内の各オブジェクトには、識別されるエンティティのタイプを表すメンバー "label_name"
があります。textSpan
オブジェクト テキスト・スパンを表すオブジェクト。 "offset"
および"length"
の2つの必須の数値メンバーが含まれます。 - ラベル付きレコード・フォーマットのJSONスキーマの例:
-
{ "sourceDetails": { "path": "Complaint3.txt" }, "annotations": [ { "entities": [ { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" }, { "label_name": "Label2" } ], "textSpan": { "offset": 0, "length": 28 } }, { "entityType": "TEXTSELECTION", "labels": [ { "label_name": "Label1" } ], "textSpan": { "offset": 196, "length": 11 } } ] } ] }
データセットのアップロード
データセットをオブジェクト・ストレージ・バケットにアップロードします。
バケットの作成
データセットのオブジェクト・ストレージ・バケットがある場合は、この項をスキップします。
- ナビゲーション・メニューを開き、「ストレージ」をクリックします。「オブジェクト・ストレージおよびアーカイブ・ストレージ」で、「バケット」をクリックします。
- 「リスト範囲」のコンパートメント・リストで、バケットを作成するコンパートメントの名前をクリックします。オブジェクト・ストレージ・リソースをこのコンパートメントに追加する権限がすでにある必要があります。
- 「バケットの作成」をクリックします。
- リージョンに固有のバケットの名前を入力します。
- その他のフィールドについては、「詳細」リンクをクリックし、データに適用されるオプションを選択します。
-
「作成」をクリックします。デフォルトでは、作成後に可視性を変更しないかぎり、バケットにはプライベート可視性があります。
ネームスペース内には一意のバケット名が必要です。ネームスペースはリージョン固有ですが、ネームスペース名自体はすべてのリージョンで同じです。たとえば、テナンシに、すべてのリージョンのネームスペース名であるネームスペース名<your-namespace>
が割り当てられているとします。
MyBucketという名前のバケットを米国西部(フェニックス)に作成できます。米国西部(フェニックス)にMyBucketという名前のバケットをもう1つ作成することはできません。ただし、ドイツ中央部(フランクフルト)にはMyBucketという名前のバケットを作成できます。ネームスペース名はテナントに対して一意であるため、他のユーザーはMyBucketという名前のバケットを自分のネームスペースに作成できます。
バケットへのデータの追加
バケットを作成した後、データセットをバケットに追加します。データセットがすでにバケット内にある場合は、この項をスキップします。
ファイルをオブジェクトとしてバケットに格納します。オブジェクトは、データ自体とオブジェクトに関するメタデータで構成されます。
- ナビゲーション・メニューを開き、「ストレージ」をクリックします。「オブジェクト・ストレージおよびアーカイブ・ストレージ」で、「バケット」をクリックします。
- 「リスト範囲」のコンパートメント・リストで、バケットをホストするコンパートメントの名前をクリックします。
- データを追加するバケットの名前をクリックします。
- 「アップロード」をクリックします
- データをアップロードしてください。