Esta página ha sido traducida por una máquina.

Modelos de inteligencia artificial de documentos entrenados previamente

Vision proporciona modelos de IA de documentos preentrenados que le permiten organizar y extraer texto y estructura de documentos comerciales.

Los modelos preentrenados te permiten utilizar la IA sin experiencia en ciencia de datos. Proporcione un documento basado en imágenes al servicio Vision y obtenga información sobre el documento sin necesidad de crear su propio modelo.
Importante

Las capacidades AnalyzeDocument y DocumentJob de Vision se están moviendo a un nuevo servicio, Document Understanding. Las siguientes funciones se ven afectadas:
  • Detección de tablas
  • Clasificación de Documentos
  • Extracción de clave-valor de cobro
  • OCR de documento
Estas funciones están disponibles en Vision hasta el 1 de enero de 2024. Después de eso, solo están disponibles en Document Understanding.

Casos de Uso

Los modelos de IA de documentos previamente entrenados te permiten automatizar las operaciones de back-office y procesar los recibos con mayor precisión.

Búsqueda inteligente
Enriquezca los archivos basados en imágenes con metadatos, incluidos el tipo de documento y los campos clave, para facilitar la recuperación.
Informe de gasto
Extraiga la información necesaria de los recibos para automatizar los flujos de trabajo de negocio. Por ejemplo, informes de gastos de empleados, cumplimiento de gastos y reembolso.
Procesamiento de lenguaje natural descendente (NLP)
Extraiga texto de archivos PDF y organícelo como entrada para NLP, ya sea en tablas o en palabras y líneas.
Captura de puntos de fidelización
Automatice los cálculos de puntos de fidelización a partir de las recepciones, en función del número de artículos o el importe total pagado.

Formatos soportados

Vision admite varios formatos de documento.

Los documentos se pueden cargar desde un archivo local o desde Oracle Cloud Infrastructure Object Storage. Pueden tener los siguientes formatos:
  • JPEG
  • PDF
  • PNG
  • TIFF

Modelos previamente entrenados

Reconocimiento óptico de caracteres (OCR)

Visión puede detectar y reconocer texto en un documento. La clasificación de idioma identifica el idioma de un documento, luego OCR dibuja cuadros delimitadores alrededor del texto impreso o escrito a mano que encuentra en una imagen y digitaliza el texto.

Si tiene un PDF con texto, Vision busca el texto en ese documento y extrae el texto. A continuación, proporciona cuadros delimitadores para el texto identificado. La detección de texto se puede utilizar con modelos de IA de documentos o análisis de imágenes.

Visión proporciona una puntuación de confianza para cada agrupación de texto. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Nota

El soporte de OCR está limitado al inglés. Si sabe que el texto de las imágenes está en inglés, defina el idioma en Eng.
Las funciones admitidas son:
  • Extracción de Palabras
  • Extracción de línea de texto
  • Puntuación de confianza
  • Polígonos encuadernados
  • Solicitud única
  • Solicitud por lotes
Las limitaciones son:
  • Aunque la clasificación de idiomas identifica varios idiomas, OCR se limita al inglés.

Clasificación de Documentos

La clasificación de documentos se puede utilizar para clasificar un documento.

Vision proporciona una lista de posibles tipos de documentos para el documento analizado. Cada tipo de documento tiene una puntuación de confianza. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta está entre 0 y 1. La lista de posibles tipos de documento es:
  • Factura
  • Recepción
  • CV
  • Formulario de impuestos
  • Permiso de conducir
  • Pasaporte
  • Extracto bancario
  • Activar
  • Nómina
  • Otro
Las funciones admitidas son:
  • Clasificar documento
  • Puntuación de confianza
  • Solicitud única
  • Solicitud por lotes

Extracción de tabla

La extracción de tablas se puede utilizar para identificar tablas en un documento y extraer su contenido. Por ejemplo, si un recibo en PDF contiene una tabla que incluye los impuestos y el importe total, Vision identifica la tabla y extrae la estructura de la tabla.

Vision proporciona el número de filas y columnas de la tabla y el contenido de cada celda de la tabla. Cada celda tiene una puntuación de confianza. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:
  • Extracción de tablas con y sin bordes
  • Polígonos encuadernados
  • Puntuación de confianza
  • Solicitud única
  • Solicitud por lotes
Las limitaciones son:
  • Solo idioma inglés

Extracción de valores clave (recibos)

La extracción de valores clave se puede utilizar para identificar valores para claves predefinidas en un cobro. Por ejemplo, si un recibo incluye un nombre de comerciante, una dirección de comerciante o un número de teléfono de comerciante, Vision puede identificar estos valores y devolverlos como un par clave-valor.

Las funciones admitidas son:
  • Extraer valores para pares de valores de clave predefinidos
  • Polígonos encuadernados
  • Solicitud única
  • Solicitud por lotes
Limitaciones:
  • Solo soporta recibos en inglés.
Los campos soportados son:
MerchantName
Nombre del comerciante que emite el recibo.
MerchantPhoneNumber
Número de teléfono del comerciante.
MerchantAddress
La dirección del comerciante.
TransactionDate
Fecha en que se emitió el recibo.
TransactionTime
Hora a la que se emitió el recibo.
Total
El importe total del recibo, después de que se hayan aplicado todos los cargos e impuestos.
Subtotal
Subtotal antes de impuestos.
Tax
Cualquier impuesto sobre las ventas.
Consejo
La cantidad de propina dada por el comprador.
La información de línea de ítem soportada es:
ItemName
Nombre del elemento.
ItemPrice
Precio unitario del artículo.
ItemQuantity
Número de cada artículo comprado.
ItemTotalPrice
Precio total de la línea de ítem.

PDF de reconocimiento óptico de caracteres (OCR)

OCR PDF genera un archivo PDF apto para búsqueda en Object Storage. Por ejemplo, Vision puede tomar un archivo PDF con texto e imágenes, y devolver un archivo PDF donde puede buscar el texto en el PDF.

Funciones soportadas:
  • Generar PDF apto para búsqueda
  • Solicitud única
  • Solicitud por lotes

Uso de modelos de inteligencia artificial de documentos entrenados previamente

Vision proporciona modelos preentrenados para que los clientes extraigan información sobre sus documentos sin necesidad de científicos de datos.

Necesita lo siguiente antes de utilizar un modelo previamente entrenado:

  • Una cuenta de arrendamiento de pago en Oracle Cloud Infrastructure.

  • Familiaridad con Oracle Cloud Infrastructure Object Storage.

Puede llamar a los modelos de IA de documentos previamente entrenados como una solicitud por lotes mediante las API de Rest, SDK o CLI. Puede llamar a los modelos de IA de documentos previamente entrenados como una sola solicitud mediante la consola, las API de Rest, el SDK o la CLI.

Consulte la sección Límites para obtener información sobre lo que se permite en las solicitudes por lotes.