Live-Transkription verwenden

Erstellen und verwalten Sie Live-Transkriptionsjobs im Speech-Service.

Die Live-Transkriptionsfunktion ermöglicht die Echtzeit-Transkription, mit der Sie Audio-Streams senden und Textergebnisse in Echtzeit empfangen können. Die Echtzeittranskription ist für viele Anwendungsfälle in Branchen wie Gesundheitswesen, Callcentern und Medien erforderlich. Beispielsweise verwenden Ärzte und Pflegekräfte ein medizinisches Diktat, das Echtzeitfunktionen erfordert und die Arbeitseffizienz erhöht. Mit der Veröffentlichung von Live-Transkribieren können Sie in weniger als wenigen Sekunden eine genaue Transkription in Ihrer Anwendung erhalten. Sie können das eingebettete Textfenster verwenden, um eine Live-Transkribierung zu versuchen, oder Sie finden im API-Dokument Informationen zur programmatischen Integration mit dem OCI-Echtzeittranskriptionsdienst.

Erstellen einer Live Transcribe-Sitzung

Erstellen und senden Sie eine Live-Transkribierung von Speech, um einen Live-Audio-Stream in Text zu transkribieren.

  1. Öffnen Sie das Navigationsmenü, und klicken Sie auf Analysen und KI. Klicken Sie unter KI-Services auf Sprache.
  2. Klicken Sie im linken Navigationsmenü auf Live transcribe.
  3. Wählen Sie unter Listenbereich das Compartment aus, in dem Sie arbeiten möchten.
  4. (Optional) Wählen Sie im Abschnitt Transkription konfigurieren Werte für eine oder mehrere der folgenden Optionen aus, um die Transkription anzupassen:
    • Modelltyp auswählen: Wählen Sie das Sprachmodell, das für die Transkription verwendet werden soll.
    • Domain auswählen: Wählen Sie die Domain des zu verwendenden Sprachmodells aus.
    • Sprache auswählen: Wählen Sie die Sprache aus, in der transkribiert werden soll.
    • Interpunktion: Konfigurieren Sie Interpunktion in den generierten Transkriptionen. Es stehen drei Optionen zur Verfügung: Keine ohne Satzzeichen (Standardwert), Automatisch, um Satzzeichen automatisch einzufügen, und Gesprochen, um Satzzeichen einzufügen, wenn sie mündlich gesprochen werden.
    • (Nur für Oracle-Modell) Schwellenwert für partielle Stille: Geben Sie an, wie lange der Service in Millisekunden auf mehr Sprache wartet, nachdem er die Spracherkennung gestoppt hat, bevor die Spracherkennung beendet wird.
    • (Nur für das Oracle-Modell) Schwellenwert für die endgültige Stille: Geben Sie an, wie viele Millisekunden Stille nach dem Vorlesen eines Wortes der Service wartet, bis die Session beendet ist.
    • (Nur für Oracle-Modell) Partielle Ergebnisstabilität: Wählen Sie die Konfidenzmenge aus, die für die neuesten Token erforderlich ist, bevor diese als Teil eines neuen Teilergebnisses zurückgegeben werden.
    • (Nur für Oracle-Modell)Anpassungen aktivieren: Aktivieren Sie dieses Kontrollkästchen, um die Session anzupassen.
      • Wählen Sie die zu verwendende Anpassung aus. Ändern Sie gegebenenfalls die Compartments.
      • Klicken Sie auf Entitys überschreiben. Nur Anpassungen mit verschiedenen Entitylisten können außer Kraft gesetzt werden
  5. Um eine Session zu starten, klicken Sie auf Session starten, und beginnen Sie zu sprechen.
  6. Um eine Session zu stoppen, stoppen Sie das Sprechen, und klicken Sie auf Session stoppen.
  7. (Optional) Klicken Sie auf JSON anzeigen, um die JSON-Datei anzuzeigen.
  8. (Optional) Um die Session zurückzusetzen, klicken Sie auf Zurücksetzen.