トランスクリプション・ジョブを作成します

1つ以上のメディア・ファイルを音声サービスのテキスト・ファイルに変換するジョブを作成して送信します。

始める前に

  • トランザクションするメディア・ファイルをオブジェクト・ストレージ・バケットに格納します。

  • トランスクリプション・ジョブ作成用のWhisperモデルとOracle ASRモデルを比較するには、「WhisperモデルとOracle ASRモデルの比較」を参照してください。

  • トランスクリプション・ジョブを作成するには、次のステップを実行します。
    1. ナビゲーション・メニューを開き、「アナリティクスとAI」をクリックします。「AIサービス」で、「音声」をクリックします。
    2. 左側のナビゲーション・メニューで、「トランスクリプション・ジョブ」をクリックします
    3. 「スコープのリスト」で、作業するコンパートメントを選択します。
    4. 「ジョブの作成」をクリックします。
    5. 基本情報ページで、プロジェクトの一意の名前(255文字の制限)を入力します。名前には、任意の順序で1つ以上の英数字、ダッシュまたはアンダースコアを含める必要があります。名前を指定しない場合、名前は自動生成されます。

      たとえば:

      AiSpeechTranscriptionJob20220804134759

    6. (オプション)ジョブの説明(400文字の制限)を入力します。
    7. ジョブを作成するコンパートメントを選択します(表示されているコンパートメントと異なる場合)。
    8. 「入力」で、転送するメディア・ファイルを含むデータ入力バケットを選択します。

      目的のバケットが選択したコンパートメントにない場合は、コンパートメントを変更します。

    9. 「出力」で、入力バケットまたは別のバケットに出力ファイルを格納する場所を選択します。別のバケットを使用するには、そのバケットを選択します。
    10. (オプション)バケット内のファイルを区切ってソートするための出力接頭辞を入力します。

      たとえば、コール・センターのメディア・ファイルにcall_ctrと入力できます。

      スラッシュ(/)を使用して、バケットに出力フォルダを作成することもできます。たとえば、MyResults/は、トランスクリプションされたすべてのファイルをバケットのMyResultsフォルダに格納します。

    11. 作成するジョブのモデル・タイプを選択します。
      ノート

      サポートされているモデル・タイプは、Oracle、Whisper Medium、Whisper Large V2(サービス・リクエスト時)およびWhisper Large V3 Turbo(新規)です。使用するモデル・タイプを決定するには、「ウィスパーとOracle ASRモデルの比較」を参照してください。
    12. メディアファイルの言語を選択します。

      適切な言語を言語で検索できます。デフォルトは英語(US English for ORACLE)です。

      ウィスパー・モデルは言語の識別をサポートし、ドロップダウン・リストで言語コードとして「自動」を選択すると使用できます。

    13. (オプション)SRT形式とJSON形式の両方をトランスクリプションに含めるには、「SRTトランスクリプション形式の取得」を選択します。
    14. トランスクリプションを句読点にしない場合は、「句読点の有効化」をクリアします。
      ノート

      「句読点の有効化」はウィスパー・モデルに対して選択されており、クリアできません。
    15. (オプション)入力ファイルでスピーカーを識別するには、「ダイアライゼーションの有効化」を選択します。

      Speechサービスが入力ファイル内の一意のスピーカーの数を自動的に検出するようにしたり、番号を入力したりできます。スピーカーの最小数は2で、最大数は16です。

      ノート

      ダイアライゼーションを使用すると、トランスクリプション・タスクのレイテンシが増加します。そのため、このオプションはデフォルトで無効になっています。

    16. フィルタを追加して出力ファイルの生成方法を変更するには、「フィルタの追加」をクリックします。
      1. フィルタ・タイプを選択します。プロファニティがデフォルトです。
      2. フィルタ・モードを選択します。

        たとえば、プロファイルフィルタは、次のモードを提供します。

        • マスク: 検出されたすべての不正行為は、最初の文字を除き、アスタリスクで転写中にマスクされます。

        • 削除: 検出されたプロファニティーは、トランスクリプションで1個のアスタリスクに置き換えられます。

        • タグ: プロファニティはマスクも削除もされませんが、トランスクリプションではTYPE: "Profanity"としてマークされます。

    17. (オプション)設定をさらに追加するには、「追加設定の追加」をクリックし、キーとその値を入力します。
      :
      • キー: キー値(whisperPromptなど)です。

        キーは必要な数だけ追加できます。キーを削除するには、[値]フィールドの横にある[X]を選択します。

        Whisperモデルが選択されている場合、このフィールドを使用してプロンプトを渡し、トランスクリプションに役立てることができます。サポートされる鍵は whisperPromptだけです。他のキーが渡された場合、リクエストは無効な入力とみなされるため失敗します。

        値プロンプトの最大長は4000文字で、英数字と句読点(. 、 ! ? - : ; '")のみが許可され、ウィスパーに固有です。検証はバックグラウンドで実行され、プロンプトがこの制限より長い場合、ジョブは失敗します。

      • : プロンプト値で、複数の単語を指定できます。このフィールドは、入力したすべてのテキストを表示する例です。
      ノート

      ウィスパー・モデルにプロンプトを追加すると、予期しない結果が生じる場合があります。
    18. (オプション)「拡張オプションの表示」をクリックして、タグをジョブに割り当てます。タグは、タグ・ネームスペースを選択してキーおよび値を入力することで、リソースを簡単に検索およびトラッキングするのに役立ちます。

      タグ付けに関する項では、コスト・トラッキング・タグなど、リソースの整理および検索に使用できる様々なタグについて説明します。

    19. 「次へ」をクリックして、ジョブのファイルを選択します。
    20. 転送するメディア・ファイルのチェック・ボックスを選択するか、「名前」の横にあるチェック・ボックスを選択してすべて選択します。
      ノート

      • 最大ファイル・サイズは、2 GBです。

      • ファイル期間は最大4時間です。

    21. 「発行」をクリックしてジョブを開始します。

      ジョブは、選択したファイルのサイズと数に応じて、秒または時間単位で実行できます。実行中、ジョブは進行中状態であり、終了時に成功または失敗に変わります。ジョブを選択して、その詳細ページに移動できます。

      • ジョブは、最大100個のタスクを持つことができます。

      • ジョブは90日間保持されます。

  • トランスクリプションジョブを作成するには、createコマンドと必要なパラメータを使用します。

    oci speech transcription-job create [OPTIONS]

    機密情報を入力しないでください。

    CLIコマンドのフラグおよび変数オプションの完全なリストは、CLIコマンドライン・リファレンスを参照してください。

  • ジョブを作成するには、CreateTranscriptionJobおよびChangeTranscriptionJobCompartment操作を使用します。