Modelos de análisis de imágenes entrenados previamente

Vision proporciona modelos de IA de análisis de imágenes preentrenados que le permiten encontrar y etiquetar objetos, texto y escenas completas en imágenes.

Los modelos preentrenados te permiten utilizar la IA sin experiencia en ciencia de datos. Proporcione una imagen al servicio Vision y obtenga información sobre los objetos, el texto, las escenas y cualquier cara de la imagen sin necesidad de crear su propio modelo.

Casos de Uso

A continuación se muestran varios casos de uso para modelos de análisis de imágenes previamente entrenados.

Gestión de activos digitales

Etiquete imágenes similares a medios digitales para una mejor indexación y recuperación.

Supervisión de escena

Detecte si los artículos están en estantes minoristas, si la vegetación está creciendo en la imagen de vigilancia de una línea eléctrica o si hay camiones disponibles en mucho para la entrega o el envío.

Detección facial

Privacidad: oculta las identidades agregando un desenfoque a la imagen mediante la información de ubicación de cara devuelta a través de la función de detección de cara.
Prerrequisito para la biometría: Use la puntuación de calidad facial para decidir si una cara está clara y sin obstrucciones.
Gestión de activos digitales: etiqueta imágenes con información facial para una mejor indexación y recuperación.

Formatos soportados

Vision soporta varios formatos de análisis de imágenes.

Las imágenes se pueden cargar desde el almacenamiento local o desde Oracle Cloud Infrastructure Object Storage. Las imágenes pueden tener los siguientes formatos:

Modelos previamente entrenados

Visión tiene cuatro tipos de modelos de análisis de imágenes preentrenados.

Los modelos previamente entrenados son:

Detección de objetos

La detección de objetos se utiliza para buscar e identificar objetos en una imagen. Por ejemplo, si tiene una imagen de una sala de estar, Vision encontrará los objetos allí, como una silla, un sofá y un televisor. A continuación, proporciona cuadros delimitadores para cada uno de los objetos y los identifica.

Vision proporciona una puntuación de confianza para cada objeto identificado. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en la clasificación de objetos, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:

Etiquetas
Puntuación de confianza
Polígonos delimitadores de objetos
Solicitudes únicas
Solicitudes por lotes

Ejemplo de detección de objetos

Ejemplo de uso de Object Detection en Vision.

Imagen de entrada

Imagen de entrada para detección de objetos Imagen de un automóvil que conduce por una carretera, con Oracle escrito en él. A un lado hay un autobús, al otro un taxi.

Imagen de un automóvil que conduce por una carretera, con Oracle escrito en él. A un lado hay un autobús, al otro un taxi.

Solicitud de API:

{ "analyzeImageDetails":
 { "compartmentId": "",
   "image": 
           { "namespaceName": "",
             "bucketName": "",
             "objectName": "",
             "source": "OBJECT_STORAGE" },
   "features": [ { "featureType": "OBJECT_DETECTION", "maxResults": 50 } ] } }

Salida:

Imagen de salida para detección de objetos La misma imagen que la entrada, pero ahora con cuadros delimitadores dibujados alrededor de todos los elementos de interés.

La misma imagen que la entrada, pero ahora con cuadros delimitadores dibujados alrededor de todos los elementos de interés.

Respuesta de API:

{ "imageObjects": 
 [ { "name": "Bus",
     "confidence": 0.98872757,
     "boundingPolygon": 
                       { "normalizedVertices": 
                                              [ { "x": 0.232, 
                                                  "y": 0.16114457831325302 },
                                                { "x": 0.407,
                                                  "y": 0.16114457831325302 }, 
                                                { "x": 0.407,
                                                  "y": 0.36596385542168675 },
                                                { "x": 0.232,
                                                  "y": 0.36596385542168675 } ]
                       } },
   }, ... }

Clasificación de imagen

La clasificación de imágenes se puede utilizar para identificar funciones y objetos basados en escenas en una imagen. Puede tener una clasificación o varias clasificaciones, según el caso de uso y el número de elementos de una imagen. Por ejemplo, si tiene una imagen de una persona corriendo, Vision identifica a la persona, la ropa y el calzado.

Visión proporciona una puntuación de confianza para cada etiqueta. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en la etiqueta, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

Las funciones admitidas son:

Etiquetas
Puntuación de confianza
Clases de ontología
Solicitudes únicas
Solicitudes por lotes

Ejemplo de clasificación de imagen

Ejemplo de uso de Clasificación de imágenes en Visión.

Imagen de entrada

Imagen de entrada para clasificación de imagen Imagen de pilones de electricidad que cruzan una carretera.

Solicitud de API:

{ "analyzeImageDetails":
 { "compartmentId": "",
   "image":
           { "namespaceName": "",
             "bucketName": "",
             "objectName": "",
             "source": "OBJECT_STORAGE" },
             "features":
                        [ { "featureType": "IMAGE_CLASSIFICATION",
                            "maxResults": 5 } ]
 } 
}

Salida:

Respuesta de API:

{ "labels":
           [ { "name": "Overhead power line",
               "confidence": 0.99315816 },
             { "name": "Transmission tower",
               "confidence": 0.9927904 },
             { "name": "Plant", "confidence": 0.9924676 },
             { "name": "Sky", "confidence": 0.9924451 },
             { "name": "Line", "confidence": 0.9912027 } ] ...

Detección facial

La visión puede detectar y reconocer rostros en una imagen.

La detección facial le permite pasar una imagen o un lote de imágenes a Vision para detectar lo siguiente mediante un modelo preentrenado:

La existencia de caras en cada imagen.
La ubicación de las caras en cada imagen.
Hitos de cada cara.
Calidad visual de cada cara.

No se necesita experiencia en ciencia de datos para utilizar este modelo entrenado previamente.

Ejemplo de cara

Un ejemplo de detección facial en Visión.

Imagen de entrada

Imagen de entrada para la detección de rostros Imagen de una moto junto a un coche.

Solicitud de API:

{
  "compartmentId": "ocid1.compartment.oc1..aaaaaaaau3mwjanch4k54g45rizeqy52jcaxmiu4ii3kwy7hvn6pncs6yyba",
  "image": {
    "namespaceName": "axwlrwe7tbir",
    "bucketName": "demo_examples",
    "objectName": "FaceDetection/FaceDetection1.jpeg",
    "source": "OBJECT_STORAGE"
  },
  "features": [
    {
      "featureType": "FACE_DETECTION",
      "maxResults": 50,
      "shouldReturnLandmarks": true
    }
  ]
}

Salida:

Imagen de salida para detección facial Los textos de la imagen de entrada están rodeados de cuadros delimitadores.

Respuesta de API:

{
  "ontologyClasses": [],
  "detectedFaces": [
    {
      "confidence": 0.9838427,
      "boundingPolygon": {
        "normalizedVertices": [
          {
            "x": 0.48696465492248536,
            "y": 0.2889890061576746
          },
          {
            "x": 0.6339863777160645,
            "y": 0.2889890061576746
          },
          {
            "x": 0.6339863777160645,
            "y": 0.586297366400352
          },
          {
            "x": 0.48696465492248536,
            "y": 0.586297366400352
          }
        ]
      },
      "qualityScore": 0.9043028,
      "landmarks": [
        {
          "type": "LEFT_EYE",
          "x": 0.5203125,
          "y": 0.41114983
        },
        {
          "type": "RIGHT_EYE",
          "x": 0.590625,
          "y": 0.41231126
        },
        {
          "type": "NOSE_TIP",
          "x": 0.553125,
          "y": 0.4715447
        },
        {
          "type": "LEFT_EDGE_OF_MOUTH",
          "x": 0.5210937,
          "y": 0.5005807
        },
        {
          "type": "RIGHT_EDGE_OF_MOUTH",
          "x": 0.5914062,
          "y": 0.5017422
        }
      ]
    },
    {
      "confidence": 0.9775677,
      "boundingPolygon": {
        "normalizedVertices": [
          {
            "x": 0.7882407665252685,
            "y": 0.26365977075734065
          },
          {
            "x": 0.9403343200683594,
            "y": 0.26365977075734065
          },
          {
            "x": 0.9403343200683594,
            "y": 0.5528718281567582
          },
          {
            "x": 0.7882407665252685,
            "y": 0.5528718281567582
          }
        ]
      },
      "qualityScore": 0.786416,
      "landmarks": [
        {
          "type": "LEFT_EYE",
          "x": 0.81328124,
          "y": 0.37514517
        },
        {
          "type": "RIGHT_EYE",
          "x": 0.88125,
          "y": 0.39140534
        },
        {
          "type": "NOSE_TIP",
          "x": 0.8296875,
          "y": 0.44134727
        },
        {
          "type": "LEFT_EDGE_OF_MOUTH",
          "x": 0.8078125,
          "y": 0.46689895
        },
        {
          "type": "RIGHT_EDGE_OF_MOUTH",
          "x": 0.8726562,
          "y": 0.48083624
        }
      ]
    },
    {
      "confidence": 0.97464997,
      "boundingPolygon": {
        "normalizedVertices": [
          {
            "x": 0.038544440269470216,
            "y": 0.2764744597998784
          },
          {
            "x": 0.17794162034988403,
            "y": 0.2764744597998784
          },
          {
            "x": 0.17794162034988403,
            "y": 0.560027438173726
          },
          {
            "x": 0.038544440269470216,
            "y": 0.560027438173726
          }
        ]
      },
      "qualityScore": 0.8527186,
      "landmarks": [
        {
          "type": "LEFT_EYE",
          "x": 0.08984375,
          "y": 0.3809524
        },
        {
          "type": "RIGHT_EYE",
          "x": 0.15234375,
          "y": 0.39140534
        },
        {
          "type": "NOSE_TIP",
          "x": 0.12421875,
          "y": 0.44599304
        },
        {
          "type": "LEFT_EDGE_OF_MOUTH",
          "x": 0.07734375,
          "y": 0.46689895
        },
        {
          "type": "RIGHT_EDGE_OF_MOUTH",
          "x": 0.14375,
          "y": 0.47619048
        }
      ]
    },
    {
      "confidence": 0.96874785,
      "boundingPolygon": {
        "normalizedVertices": [
          {
            "x": 0.2698225736618042,
            "y": 0.24420403492713777
          },
          {
            "x": 0.38425185680389407,
            "y": 0.24420403492713777
          },
          {
            "x": 0.38425185680389407,
            "y": 0.4686152760575457
          },
          {
            "x": 0.2698225736618042,
            "y": 0.4686152760575457
          }
        ]
      },
      "qualityScore": 0.8934359,
      "landmarks": [
        {
          "type": "LEFT_EYE",
          "x": 0.29453126,
          "y": 0.3240418
        },
        {
          "type": "RIGHT_EYE",
          "x": 0.3484375,
          "y": 0.33681765
        },
        {
          "type": "NOSE_TIP",
          "x": 0.31328124,
          "y": 0.3821138
        },
        {
          "type": "LEFT_EDGE_OF_MOUTH",
          "x": 0.2890625,
          "y": 0.39372823
        },
        {
          "type": "RIGHT_EDGE_OF_MOUTH",
          "x": 0.3453125,
          "y": 0.40301976
        }
      ]
    },
    {
      "confidence": 0.95825064,
      "boundingPolygon": {
        "normalizedVertices": [
          {
            "x": 0.6876011371612549,
            "y": 0.10002164585942037
          },
          {
            "x": 0.8045546531677246,
            "y": 0.10002164585942037
          },
          {
            "x": 0.8045546531677246,
            "y": 0.3600864033804261
          },
          {
            "x": 0.6876011371612549,
            "y": 0.3600864033804261
          }
        ]
      },
      "qualityScore": 0.9237982,
      "landmarks": [
        {
          "type": "LEFT_EYE",
          "x": 0.7171875,
          "y": 0.19976771
        },
        {
          "type": "RIGHT_EYE",
          "x": 0.7703125,
          "y": 0.21254355
        },
        {
          "type": "NOSE_TIP",
          "x": 0.7367188,
          "y": 0.2601626
        },
        {
          "type": "LEFT_EDGE_OF_MOUTH",
          "x": 0.7085937,
          "y": 0.2752613
        },
        {
          "type": "RIGHT_EDGE_OF_MOUTH",
          "x": 0.76640624,
          "y": 0.2857143
        }
      ]
    }
  ],
  "faceDetectionModelVersion": "1.0.27",
  "errors": []
}

Reconocimiento óptico de caracteres (OCR)

Visión puede detectar y reconocer texto en un documento.

La clasificación de idioma identifica el idioma de un documento, luego OCR dibuja cuadros delimitadores alrededor del texto impreso o escrito a mano que encuentra en una imagen y digitaliza el texto. Por ejemplo, si tiene una imagen de un signo de parada, Vision busca el texto en esa imagen y extrae el texto STOP. Proporciona cuadros delimitadores para el texto identificado.

Visión proporciona una puntuación de confianza para cada agrupación de texto. La puntuación de confianza es un número decimal. Las puntuaciones más cercanas a 1 indican una mayor confianza en el texto extraído, mientras que las puntuaciones más bajas indican una menor puntuación de confianza. El rango de la puntuación de confianza para cada etiqueta es de 0 a 1.

La detección de texto se puede utilizar con modelos de IA de documentos o análisis de imágenes.

El soporte de OCR está limitado al inglés. Si sabe que el texto de las imágenes está en inglés, defina el idioma en Eng.

Las funciones admitidas son:

Extracción de Palabras
Extracción de línea de texto
Puntuación de confianza
Polígonos enlazados
Solicitud única
Solicitud por lotes

Ejemplo de OCR

Ejemplo de uso de OCR en Vision.

Imagen de entrada

Imagen de entrada para la solicitud de API Imagen de una moto junto a un coche.

de OCR:

{ "analyzeImageDetails":
 { "compartmentId": "",
   "image":
           { "namespaceName": "",
             "bucketName": "",
             "objectName": "",
             "source": "OBJECT_STORAGE" },
   "features":
              [ { "featureType": "TEXT_DETECTION" } ]
 }
}

Salida:

Imagen de salida para OCR Los textos de la imagen de entrada están rodeados de cuadros delimitadores.

Respuesta de API:

...
 { "text": "585-XRP",
   "confidence": 0.9905539,
   "boundingPolygon":
                     { "normalizedVertices":
                                            [ { "x": 0.466,
                                                "y": 0.7349397590361446 },
                                              { "x": 0.552,
                                                "y": 0.7319277108433735 },
                                              { "x": 0.553,
                                                "y": 0.7831325301204819 },
                                              { "x": 0.467,
                                                "y": 0.7876506024096386 } ]
                     }
 } 
...

Uso de modelos de análisis de imágenes entrenados previamente

Vision proporciona modelos preentrenados para que los clientes extraigan información sobre sus imágenes sin necesidad de científicos de datos.

Necesita lo siguiente antes de utilizar un modelo previamente entrenado:

Una cuenta de arrendamiento de pago en Oracle Cloud Infrastructure.
Familiaridad con Oracle Cloud Infrastructure Object Storage.

Puede llamar a los modelos de análisis de imágenes previamente entrenados como una solicitud por lotes mediante las API de Rest, SDK o CLI. Puede llamar a los modelos de análisis de imágenes previamente entrenados como una sola solicitud mediante la consola, las API de Rest, el SDK o la CLI.

Consulte la sección Límites para obtener información sobre lo que se permite en las solicitudes por lotes.

Documentación de Oracle Cloud Infrastructure Probar cuenta gratuita

Modelos de análisis de imágenes entrenados previamente

Casos de Uso 🔗

Formatos soportados 🔗

Modelos previamente entrenados 🔗

Detección de objetos 🔗

Clasificación de imagen 🔗

Detección facial 🔗

Reconocimiento óptico de caracteres (OCR) 🔗

Uso de modelos de análisis de imágenes entrenados previamente 🔗

Documentación de Oracle Cloud Infrastructure
Probar cuenta gratuita

Casos de Uso

Formatos soportados

Modelos previamente entrenados

Detección de objetos

Clasificación de imagen

Detección facial

Reconocimiento óptico de caracteres (OCR)

Uso de modelos de análisis de imágenes entrenados previamente