Modelos de inteligencia artificial de documentos entrenados previamente
Vision proporciona modelos de IA de documentos preentrenados que le permiten organizar y extraer texto y estructura de documentos comerciales.
Los modelos preentrenados te permiten utilizar la IA sin experiencia en ciencia de datos. Proporcione un documento basado en imágenes al servicio Vision y obtenga información sobre el documento sin necesidad de crear su propio modelo.
Importante
Las capacidades AnalyzeDocument y DocumentJob de Vision se están moviendo a un nuevo servicio, Document Understanding. Las siguientes funciones se ven afectadas:
Detección de tablas
Clasificación de Documentos
Extracción de clave-valor de cobro
OCR de documento
Estas funciones están disponibles en Vision hasta el 1 de enero de 2024. Después de eso, solo están disponibles en Document Understanding.
Casos de Uso
Los modelos de IA de documentos previamente entrenados te permiten automatizar las operaciones de back-office y procesar los recibos con mayor precisión.
Búsqueda inteligente
Enriquezca los archivos basados en imágenes con metadatos, incluidos el tipo de documento y los campos clave, para facilitar la recuperación.
Informe de gasto
Extraiga la información necesaria de los recibos para automatizar los flujos de trabajo de negocio. Por ejemplo, informes de gastos de empleados, cumplimiento de gastos y reembolso.
Procesamiento de lenguaje natural descendente (NLP)
Extraiga texto de archivos PDF y organícelo como entrada para NLP, ya sea en tablas o en palabras y líneas.
Captura de puntos de fidelización
Automatice los cálculos de puntos de fidelización a partir de las recepciones, en función del número de artículos o el importe total pagado.
Formatos soportados 🔗
Vision admite varios formatos de documento.
Los documentos se pueden cargar desde un archivo local o desde Oracle Cloud Infrastructure Object Storage. Pueden tener los siguientes formatos:
Visión puede detectar y reconocer texto en un documento. La clasificación de idioma identifica el idioma de un documento, luego OCR dibuja cuadros delimitadores alrededor del texto impreso o escrito a mano que encuentra en una imagen y digitaliza el texto.
Si tiene un PDF con texto, Vision busca el texto en ese documento y extrae el texto. A continuación, proporciona cuadros delimitadores para el texto identificado. La detección de texto se puede utilizar con modelos de IA de documentos o análisis de imágenes.
Visión proporciona una puntuación de confianza para cada agrupación de texto. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.
Nota
El soporte de OCR está limitado al inglés. Si sabe que el texto de las imágenes está en inglés, defina el idioma en Eng.
Las funciones admitidas son:
Extracción de Palabras
Extracción de línea de texto
Puntuación de confianza
Polígonos encuadernados
Solicitud única
Solicitud por lotes
Las limitaciones son:
Aunque la clasificación de idiomas identifica varios idiomas, OCR se limita al inglés.
La clasificación de documentos se puede utilizar para clasificar un documento.
Vision proporciona una lista de posibles tipos de documentos para el documento analizado. Cada tipo de documento tiene una puntuación de confianza. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta está entre 0 y 1. La lista de posibles tipos de documento es:
La extracción de tablas se puede utilizar para identificar tablas en un documento y extraer su contenido. Por ejemplo, si un recibo en PDF contiene una tabla que incluye los impuestos y el importe total, Vision identifica la tabla y extrae la estructura de la tabla.
Vision proporciona el número de filas y columnas de la tabla y el contenido de cada celda de la tabla. Cada celda tiene una puntuación de confianza. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.
La extracción de valores clave se puede utilizar para identificar valores para claves predefinidas en un cobro. Por ejemplo, si un recibo incluye un nombre de comerciante, una dirección de comerciante o un número de teléfono de comerciante, Vision puede identificar estos valores y devolverlos como un par clave-valor.
Las funciones admitidas son:
Extraer valores para pares de valores de clave predefinidos
Polígonos encuadernados
Solicitud única
Solicitud por lotes
Limitaciones:
Solo soporta recibos en inglés.
Los campos soportados son:
MerchantName
Nombre del comerciante que emite el recibo.
MerchantPhoneNumber
Número de teléfono del comerciante.
MerchantAddress
La dirección del comerciante.
TransactionDate
Fecha en que se emitió el recibo.
TransactionTime
Hora a la que se emitió el recibo.
Total
El importe total del recibo, después de que se hayan aplicado todos los cargos e impuestos.
PDF de reconocimiento óptico de caracteres (OCR) 🔗
OCR PDF genera un archivo PDF apto para búsqueda en Object Storage. Por ejemplo, Vision puede tomar un archivo PDF con texto e imágenes, y devolver un archivo PDF donde puede buscar el texto en el PDF.
Uso de modelos de inteligencia artificial de documentos entrenados previamente 🔗
Vision proporciona modelos preentrenados para que los clientes extraigan información sobre sus documentos sin necesidad de científicos de datos.
Necesita lo siguiente antes de utilizar un modelo previamente entrenado:
Una cuenta de arrendamiento de pago en Oracle Cloud Infrastructure.
Familiaridad con Oracle Cloud Infrastructure Object Storage.
Puede llamar a los modelos de IA de documentos previamente entrenados como una solicitud por lotes mediante las API de Rest, SDK o CLI. Puede llamar a los modelos de IA de documentos previamente entrenados como una sola solicitud mediante la consola, las API de Rest, el SDK o la CLI.
Consulte la sección Límites para obtener información sobre lo que se permite en las solicitudes por lotes.