Esta página ha sido traducida por una máquina.

Modelos de análisis de imágenes entrenados previamente

Vision proporciona modelos de IA de análisis de imágenes preentrenados que le permiten encontrar y etiquetar objetos, texto y escenas completas en imágenes.

Los modelos preentrenados te permiten utilizar la IA sin experiencia en ciencia de datos. Proporcione una imagen al servicio Vision y obtenga información sobre los objetos, el texto, las escenas y cualquier cara de la imagen sin necesidad de crear su propio modelo.

Casos de Uso

A continuación se muestran varios casos de uso para modelos de análisis de imágenes previamente entrenados.

Gestión de activos digitales
Etiquete imágenes similares a medios digitales para una mejor indexación y recuperación.
Supervisión de escena
Detecte si los artículos están en estantes minoristas, si la vegetación está creciendo en la imagen de vigilancia de una línea eléctrica o si hay camiones disponibles en mucho para la entrega o el envío.
Detección facial
  • Privacidad: oculta las identidades agregando un desenfoque a la imagen mediante la información de ubicación de cara devuelta a través de la función de detección de cara.
  • Prerrequisito para la biometría: Use la puntuación de calidad facial para decidir si una cara está clara y sin obstrucciones.
  • Gestión de activos digitales: etiqueta imágenes con información facial para una mejor indexación y recuperación.

Formatos soportados

Vision soporta varios formatos de análisis de imágenes.

Las imágenes se pueden cargar desde el almacenamiento local o desde Oracle Cloud Infrastructure Object Storage. Las imágenes pueden tener los siguientes formatos:
  • JPG
  • PNG

Modelos previamente entrenados

Visión tiene cuatro tipos de modelos de análisis de imágenes preentrenados.

Detección de objetos

La detección de objetos se utiliza para buscar e identificar objetos en una imagen. Por ejemplo, si tiene una imagen de una sala de estar, Vision encontrará los objetos allí, como una silla, un sofá y un televisor. A continuación, proporciona cuadros delimitadores para cada uno de los objetos y los identifica.

Vision proporciona una puntuación de confianza para cada objeto identificado. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en la clasificación de objetos, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:
  • Etiquetas
  • Puntuación de confianza
  • Polígonos delimitadores de objetos
  • Solicitudes únicas
  • Solicitudes por lotes

Clasificación de imagen

La clasificación de imágenes se puede utilizar para identificar funciones y objetos basados en escenas en una imagen. Puede tener una clasificación o varias clasificaciones, según el caso de uso y el número de elementos de una imagen. Por ejemplo, si tiene una imagen de una persona corriendo, Vision identifica a la persona, la ropa y el calzado.

Visión proporciona una puntuación de confianza para cada etiqueta. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en la etiqueta, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:
  • Etiquetas
  • Puntuación de confianza
  • Clases de ontología
  • Solicitudes únicas
  • Solicitudes por lotes

Detección facial

La visión puede detectar y reconocer rostros en una imagen.

La detección facial le permite pasar una imagen o un lote de imágenes a Vision para detectar lo siguiente mediante un modelo preentrenado:

  • La existencia de caras en cada imagen.
  • La ubicación de las caras en cada imagen.
  • Hitos de cada cara.
  • Calidad visual de cada cara.

No se necesita experiencia en ciencia de datos para utilizar este modelo entrenado previamente.

Reconocimiento óptico de caracteres (OCR)

Visión puede detectar y reconocer texto en un documento.

La clasificación de idioma identifica el idioma de un documento, luego OCR dibuja cuadros delimitadores alrededor del texto impreso o escrito a mano que encuentra en una imagen y digitaliza el texto. Por ejemplo, si tiene una imagen de un signo de parada, Vision busca el texto en esa imagen y extrae el texto STOP. Proporciona cuadros delimitadores para el texto identificado.

Visión proporciona una puntuación de confianza para cada agrupación de texto. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

La detección de texto se puede utilizar con modelos de IA de documentos o análisis de imágenes.

El soporte de OCR está limitado al inglés. Si sabe que el texto de las imágenes está en inglés, defina el idioma en Eng.

Las funciones admitidas son:
  • Extracción de Palabras
  • Extracción de línea de texto
  • Puntuación de confianza
  • Polígonos enlazados
  • Solicitud única
  • Solicitud por lotes

Uso de modelos de análisis de imágenes entrenados previamente

Vision proporciona modelos preentrenados para que los clientes extraigan información sobre sus imágenes sin necesidad de científicos de datos.

Necesita lo siguiente antes de utilizar un modelo previamente entrenado:

  • Una cuenta de arrendamiento de pago en Oracle Cloud Infrastructure.

  • Familiaridad con Oracle Cloud Infrastructure Object Storage.

Puede llamar a los modelos de análisis de imágenes previamente entrenados como una solicitud por lotes mediante las API de Rest, SDK o CLI. Puede llamar a los modelos de análisis de imágenes previamente entrenados como una sola solicitud mediante la consola, las API de Rest, el SDK o la CLI.

Consulte la sección Límites para obtener información sobre lo que se permite en las solicitudes por lotes.