Esta página ha sido traducida por una máquina.

Acerca de la incorporación de modelos en la IA generativa

Los modelos de integración de OCI Generative AI transforman cada frase, frase o párrafo que introduzca en una matriz con 384 (modelos ligeros) o 1024 números, según el modelo de embebido que seleccione.

Puede utilizar estas incrustaciones para encontrar similitud en frases que sean similares en contexto o categoría. Las incrustaciones se almacenan normalmente en una base de datos vectorial. Los embebidos se utilizan principalmente para búsquedas semánticas donde la función de búsqueda se centra en el significado del texto que está buscando en lugar de encontrar resultados basados en palabras clave.

Modelos Disponibles

Los siguientes modelos preentrenados están disponibles para crear incrustaciones de texto:

  • cohere.embed-english-v3.0
  • cohere.embed-multilingual-v3.0
  • cohere.embed-english-light-v3.0
  • cohere.embed-multilingual-light-v3.0
Elección de Modelo
  • Utilice los modelos Cohere Embed English para generar incrustaciones de texto a partir de documentos en inglés.
  • Utilice los modelos multilingües Embed de Cohere cuando:
    • En lugar del inglés, los documentos se escriben en uno de los idiomas soportados.
    • Los documentos están escritos en más de un idioma y esos idiomas son uno de los idiomas soportados.
Visualización de los embebidos

Para visualizar las salidas con incrustaciones, los vectores de salida se proyectan en dos dimensiones y se trazan como puntos en la consola de Oracle Cloud. Los puntos que están juntos corresponden a frases que el modelo considera similares. Haga clic en Exportar salida para obtener una matriz de 1024 vectores para cada incrustación guardada en un archivo JSON.

Casos de Uso

Los siguientes casos de uso son ideales para incrustaciones de texto.

  • Búsqueda semántica: busque mediante transcripciones de llamadas, orígenes de conocimientos internos, etc.

  • Clasificación de texto: clasifique la intención en los logs de chat del cliente y los tickets de soporte.
  • Agrupación en clusters de texto: identifique temas destacados en revisiones de clientes o nuevos datos.
  • Sistemas de recomendación: representan descripciones de podcasts, por ejemplo, como una función numérica para utilizar en un modelo de recomendación.

Incrustación de parámetro de modelo

Al utilizar los modelos embebidos, puede obtener una salida diferente cambiando el siguiente parámetro.

Truncar

Indica si se truncan los tokens de inicio o finalización en una oración, cuando esa oración supera el número máximo de tokens permitidos. Por ejemplo, una oración tiene 516 tokens, pero el tamaño máximo del token es 512. Si selecciona truncar el final, se cortan los últimos 4 tokens de esa oración.