非同期文書翻訳
OCI Languageサービスの非同期ドキュメント翻訳モデルは、テキストを選択した言語に変換します
OCI非同期ドキュメント翻訳は、元のドキュメントの構造と形式を維持しながら、オブジェクト・ストレージの場所内で様々なドキュメント形式を非同期的に大規模にシームレスかつ効率的に翻訳できるクラウドベースのサービスです。OCI非同期ドキュメント翻訳では、Oracleの事前トレーニング済マシン翻訳モデルを使用して、言語翻訳やその他の言語関連の操作を実行します。
非同期ドキュメント翻訳では、様々なドキュメント・タイプが変換されます。Word、Excel、Power Pointなどは、元の書式設定を維持しながら翻訳できます。プレーン・テキスト、HTML形式およびJSONがサポートされており、オンライン・コンテンツの翻訳やグローバル・アプリケーションの翻訳の統合に最適です。また、閉じたキャプションおよび字幕の形式がサポートされ、ビデオ・コンテンツのアクセシビリティが向上します。
このサービスでは、MLM AI互換のJSONまたはCSVファイルにファイルを変換する機能も提供されており、MLモデルのトレーニングや微調整、RAGインデックスの構築などのタスクに適しています。
ユース・ケース
- 言語の障壁を克服するための合理化されたアプローチ
-
- ユーザー・ガイド、ブログおよびナレッジ・ベースの記事を翻訳して、より広い対象者にリーチします。
- グローバル・チーム間の社内コミュニケーションと知識共有を改善します。
- プレゼンテーションおよびマーケティング・アセットを複数の言語で提供することで、販売およびマーケティング・キャンペーンのリーチを拡大します。
- 録画されたビデオ・コンテンツに字幕を追加して、ネイティブでないスピーカーにトレーニング・コンテンツをより包括的にします。
- 英語以外の入力コンテンツで使用される機械学習モデルの拡張など、製品およびサービスに対する多言語サポートを開発します。
- LLM処理のための多言語エンタープライズ・データの準備
- 基盤LLMとAIモデルの有効性は、エンタープライズ・データを使用することで改善できます。このエンタープライズ・データの大部分が様々な形式および言語に存在するということは、課題となる可能性があります。一部のLLMおよびAIモデルは特定の言語のみをサポートし、多言語モデルは言語に応じて異なる動作をする場合があります。
- 多言語のエンタープライズ・コンテンツを様々な形式からJSONまたはCSVに変換および変換します
- 文、チャンク、またはファイル形式の自然境界でセグメント化します。
- JSONを使用して、RAGインデックスを構築したり、カスタム・モデルを微調整したり、AIパイプラインに提出してさらなる分析と処理を行うことができます。たとえば、センチメント分析(NER)。
- 多言語のエンタープライズ・コンテンツを様々な形式からJSONまたはCSVに変換および変換します
サポートされているドキュメント・タイプ
ドキュメントのタイプ | 拡張子 |
---|---|
Microsoft Office | docx、pptx、xlsx |
HTML | .html |
JSON | .json |
テキスト | .txt |
CSV | カンマ区切り値、.csv |
TSV | タブ区切り値、.tsv |
SRT | SubRip字幕ファイル、.srt |
Web VTT | Webビデオ・テキスト・トラック形式、.vtt |
サポートされている言語
サポートされている言語のリストは、サポートされている言語を参照してください。ソース言語パラメータがautoに設定されている場合、主要なソース言語の自動検出がサポートされます。
前提条件
非同期ドキュメント翻訳サービスを使用するには、「非同期ジョブ・ポリシー」の設定が必要です。
サイズ制限と制約
- ドキュメントの最大サイズは20MBです。サイズを超えるドキュメントは無視されます。
- すべてのテキスト形式(テキスト、HTML、CSV、TSV、SRT、WebVTT、JSON)をUTF-8でエンコードする必要があります。
- 単一リクエストの最大サイズは5 GBです。ただし、レスポンスを高速化するには、リクエストのサイズを小さくすることをお薦めします。
非同期ドキュメント翻訳機能の制御
非同期ドキュメント翻訳では、用語集ファイルまたは特定のファイル・プロパティを使用して、拡張プロパティを使用して翻訳を制御およびカスタマイズできます。
用語集は、ユーザー指定の用語のリストで、非同期ドキュメント翻訳内で翻訳を制御するために使用できます。用語集を使用すると、特定の用語の翻訳方法を指定したり、翻訳しない方法を指定できます。
用語集の主な使用例は次のとおりです。
- コンテキストおよびドメイン固有の用語がコンテンツ全体で一貫して翻訳されるようにします。
- 特定の用語または単語を翻訳から制限します。たとえば、翻訳しないブランド名や製品名などです。
オプションで、ファイルの変換される要素を制御するには、ファイル・タイプ固有のプロパティを使用します。たとえば、列を使用してCSVファイルまたは要素を変換し、JSONファイルを変換します。
次の詳細プロパティおよび説明を参照してください。
- 用語集
-
ジョブごとにカスタム用語を指定でき、特定の単語を異なる方法で翻訳できます。用語集は、ヘッダーなしでカンマ区切り値(CSV)として指定できます。
詳細プロパティのサンプル値:
{"translation":{"glossary": {"type": "bucket","bucketDetails": {"bucketName": "source-bucket", "namespace": "idngwwc5ajp5","prefix": "glossary_text.csv"}}}}
サンプル用語集CSVファイル・コンテンツ1 - すべてのターゲット言語に適用されます:
India,India Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite
用語集CSVファイルのサンプル・コンテンツ2 - 言語固有の用語集
en,nl,es India,India,India Oracle,Oracle,Oracle Oracle Cloud Infrastructure,Oracle Cloud Infrastructure,Oracle Cloud Infrastructure Oracle NetSuite,Oracle NetSuite,Oracle NetSuite
強制用語集のベストプラクティス
-
強制用語集は最小限にしてください。
- 制御する用語とあいまいでない用語のみを含めます。
- 代替の意味を使用したくない用語のみを使用し、1つの方法でのみ翻訳されるようにします。
- ブランド名や製品名など、リストを適切な名前に制限します。
- 強制用語集では、大文字と小文字が区別されます。
- 用語の資産計上済バージョンと非資産計上バージョンの両方を含める必要がある場合は、バージョンごとにエントリを含める必要があります。
- 同様に、用語の複数バージョンは用語集に個別のエントリとして含める必要があります
- 同じソース・フレーズに異なる翻訳を含めないでください。このような場合、MT結果は保証できません。
例:
en,fr Oracle MT, Oracle MT Oracle MT, Système de traduction automatique de Oracle
-
- CSVコントロール
-
翻訳するヘッダーおよび列を指定できます。
columnsToTranslate
: 変換する列の索引(1から開始)。hasHeaders
: CSVファイルにヘッダーがあるかどうかを指定します(trueの場合、最初の行は未翻訳のままです)。
例:
{"translation":{"csv":{"columnsToTranslate":[2],"hasHeaders":false}}}
- JSON構成
-
pathsToTranslate
を有効なJSONパス式の配列に設定することで、特定の要素を変換できます。例:
{"translation":{"json":{"filter":"path","pathsToTranslate": ["jsonData.title","jsonData.existingSkills","jsonData.structured.experience[*].role"]}}}
- デリミタを使用したカスタム・セグメンテーション
-
デフォルトでは、JSON/CSV/TSVの各エントリは文レベルで変換されます。カスタム・デリミタは、コンテンツが通常の文で構成されていない場合に使用できます。デリミタは、テキストの分割に使用できる有効な正規表現です。
例:
各行を個別に翻訳するには:
{"translation":{ "json": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "csv": {"delimiters": "\\s*\\n+\\s*"} } {"translation":{ "tsv": {"delimiters": "\\s*\\n+\\s*"} }
- HTMLコンテンツ・プロセッサ
-
JSON/CSV/TSVエントリ内のテキストをHTMLテキストとして処理するには、
"contentProcessor"
プロパティを使用します。例:
{"translation":{ "json": {"contentProcessor": "html"} } {"translation":{ "csv": {"contentProcessor": "html"} } {"translation":{ "tsv": {"contentProcessor": "html"} }
- Excel: シート名の翻訳(オプション)
-
デフォルトでは、シート名は変換されません。シート名を変換すると、一部のマクロや参照が壊れる可能性があります。ただし、スプレッドシートにシート名またはマクロを使用した参照がない場合、サービスは
translateSheetNames
プロパティをtrueに設定してシート名を変換できます。例:
{"translation":{"xlsx": {"translateSheetNames":true} }}
- Officeドキュメントの追加翻訳コントロール
-
デフォルトでは、Officeドキュメントの非表示テキスト、コメントおよびドキュメント・プロパティは翻訳から除外されます。
translateHiddenText
プロパティは、ドキュメント内の非表示テキストを翻訳するように設定できます。translateDocProperties
プロパティは、ドキュメント内の非表示テキストを翻訳するように設定できます。translateComments
プロパティは、ドキュメント内のコメントを翻訳するように設定できます。
例:
{"translation":{"docx": {"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "pptx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true}, "xlsx":
{"translateHiddenText":true, "translateDocProperties":true, "translateComments": true} }}
これらのプロパティのデフォルト値はfalseです。プロパティは、必要に応じてOfficeドキュメント・タイプごとに異なる方法で設定できます。
{"translation":{"docx": {"translateHiddenText":true}, "pptx": {"translateDocProperties":true}, "xlsx": { "translateComments": true} }}
- 字幕ファイルの翻訳コントロール
-
デフォルトでは、OCIはテキストを翻訳する前に、多くのサブタイトル・エントリから文を作成しようとします。ただし、サブタイトル・エントリを個別に翻訳する必要がある場合や、テキストに適切な文が存在しない場合もあります。
各サブタイトル・エントリを個別に翻訳する必要がある場合は、値をtrueに設定します。この場合、
maxItemSize
は有効ではありません。 - 出力形式(ファイル・タイプ)
-
この機能を使用すると、翻訳されたテキストに適した出力ファイルを指定できます。翻訳サービスでは、指定したファイルに基づいて入力ファイル・タイプが自動的に検出されます。デフォルトでは、翻訳済テキストには同じファイル・タイプが使用されます。
翻訳されたテキストに適切なファイル・タイプを指定できます。サポートされているファイル・タイプは次のとおりです。
- JSON
- CSV
- ネイティブ(デフォルト)
例:
"properties" : { "commonOutputFormat" : "json" }
ノート
このプロパティは、入力ソースのすべてのファイルに適用されます。複数のファイルを指定した場合、各ファイルは同じ出力形式に従って変換されます。 - 出力フォーマット(セグメンテーション)
-
この機能を使用すると、セグメンテーション・オプションを指定して、翻訳時のテキストの分割方法を制御できます。
サポートされているセグメンテーション・オプションは次のとおりです。
- 自然: セグメンテーションは行われません。
- センテンス: 各段落は文に分割されます。
- チャンクプレーン: 最初に使用されたセンテンス・ベースのセグメンテーション。次に、指定されたサイズまでのチャンクにセンテンスが結合されます。
- チャンク自然: チャンクプレーンと同じですが、自然境界が考慮されます。2つの異なる段落の文を含むチャンクはありません。
例:
"properties" : { "commonOutputFormat" : "csv:chunk-plain:2000" }
セグメンテーション設定は、ネイティブ
outputFormat
では許可されません。ノート
このプロパティは、入力ソースのすべてのファイルに適用されます。複数のファイルを指定した場合、各ファイルは同じ出力形式およびセグメンテーション設定に従って変換されます。
非同期文書翻訳の実行
OCI Languageサービスを使用して非同期ドキュメント変換を実行します。
ドキュメントをバケットにアップロードします。詳細は、データセットのアップロードを参照してください。 - ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「AIサービス」で、「言語」をクリックします。
- 左側のナビゲーション・メニューで、「ジョブ」をクリックします。
- 「ジョブの作成」をクリックし、名前とコンパートメントを入力します。
- 「事前トレーニング済言語翻訳」を選択します。
- ソース言語を選択します。
- ターゲット言語を選択します。
- 「次へ」をクリックします。
- 「データ型」を入力します。
- 文書があるバケットを入力します。
- データファイル名を入力します。
- 処理するテキストを含む列のテキスト列名を入力します。
- 行ID列を入力します。これは、行を一意に識別する列です。
- (オプション)出力にコピーする列を入力します。
- (オプション)ジョブ出力データを入力します。
- 詳細を確認するには、「次へ」をクリックします。
- 「ジョブの作成」をクリックします。
1つ以上のファイルを翻訳するには、oci ai language batch-language-translationコマンドと必要なパラメータを使用します:
oci ai language batch-language-translation --documents [<list-of-documents>] ... [OPTIONS]
CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。
CreateJob操作を実行して、1つ以上のファイルを変換します。