Esta página ha sido traducida por una máquina.

Puntos de referencia de rendimiento de cluster de IA dedicado en IA generativa

Revise las referencias de cluster de IA dedicada de hosting en OCI Generative AI.

Nota

Términos de referencia de rendimiento

Término Unidad Definición

Simulación

(número)

Número de usuarios que realizan solicitudes al mismo tiempo.

Métrica 1: Velocidad de inferencia a nivel de token

token/segundo

Esta métrica se define como el número de tokens de salida generados por unidad de latencia completa.

Para las aplicaciones en las que se requiere la velocidad media de lectura humana, los usuarios deben centrarse en escenarios en los que la velocidad es de 5 tokens/s o más, que es la velocidad media de lectura humana.

En otros escenarios que requieren una generación de tokens casi en tiempo real más rápida, como 15 tokens/segunda velocidad de inferencia, por ejemplo, diálogo/chatbot donde el número de usuarios simultáneos que se podrían servir es menor y el rendimiento general es menor.

Métrica 2: Rendimiento Global a Nivel de Token

token/segundo

Esta métrica cuantifica el promedio de tokens generados por el servidor en todas las solicitudes de usuario simultáneas. Proporciona una medida agregada de la capacidad y la eficiencia del servidor para atender las solicitudes entre los usuarios.

Cuando la velocidad de inferencia es menos crítica, como en las tareas de procesamiento por lotes fuera de línea, el foco debe estar en los picos de rendimiento y, por lo tanto, la rentabilidad del servidor es mayor. Esto indica la capacidad del LLM para manejar un gran número de solicitudes simultáneas, ideal para el procesamiento por lotes o tareas en segundo plano donde la respuesta inmediata no es esencial.

Nota: La referencia de rendimiento global de nivel de token se ha realizado mediante la herramienta LLMPerf. El cálculo de rendimiento tiene un problema en el que incluye el tiempo necesario para codificar el texto generado para el cálculo de token.

Métrica 3: Latencia de nivel de solicitud

segundo

Tiempo medio transcurrido entre el envío de la solicitud y el tiempo que tardó en completar la solicitud, por ejemplo, después de que se generara el último token de la solicitud.

Métrica 4: Rendimiento Global de Nivel de Solicitud (RPM)

solicitud/segundo

Número de solicitudes atendidas por unidad de tiempo, en este caso por minuto.

Importante

El rendimiento (velocidad de inferencia, rendimiento, latencia) de un cluster de IA dedicado de hosting depende de los escenarios de tráfico que atraviesan el modelo que aloja. Los escenarios de tráfico dependen de:

  1. Número de solicitudes simultáneas.
  2. El número de tokens en la petición de datos.
  3. El número de tokens en la respuesta.
  4. Variación de (2) y (3) entre solicitudes.

Escenarios de generación de texto y chat

Caso Descripción

Escenario 1: Petición de datos estocástica y longitudes de respuesta

Este escenario imita los casos de uso de generación de texto en los que el tamaño de la petición de datos y la respuesta son desconocidos con antelación.

En este escenario, debido a la longitud desconocida de la petición de datos y la respuesta, hemos utilizado un enfoque estocástico donde tanto la longitud de la petición de datos como la de la respuesta siguen una distribución normal:

  • La longitud de la petición de datos sigue a una distribución normal con una media de 480 tokens y una desviación estándar de 240 tokens
  • La longitud de respuesta sigue a una distribución normal con una media de 300 tokens y una desviación estándar de 150 tokens.

Escenario 2: Generación con recuperación aumentada (RAG)

El escenario de GR tiene una petición de datos muy larga y una respuesta corta. Este escenario también imita los casos de uso de resumen.

  • La longitud de la petición de datos se fija a 2.000 tokens.
  • La longitud de respuesta se fija a 200 tokens.
Escenario 3: Generación pesada

Este escenario es para casos de uso intensivos de respuesta de generación/modelo. Por ejemplo, una descripción de puesto larga generada a partir de una breve lista de elementos. Para este caso, definimos las siguientes longitudes de token:

  • La longitud de la petición de datos se fija a 100 tokens.
  • La longitud de respuesta se fija en 1.000 tokens.

Escenario 4: Chatbot

Este escenario abarca casos de uso de chatbot/recuadro de diálogo donde la petición de datos y las respuestas son más cortas.

  • La longitud de la petición de datos se fija a 100 tokens.
  • La longitud de respuesta se fija a 100 tokens.

Escenarios de incrustación de texto

Caso Descripción

Escenario 5: incrustaciones

El escenario 5 solo se aplica a los modelos de incrustación. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial.

En este escenario, todas las solicitudes tienen el mismo tamaño, que es de 96 documentos, cada uno con 512 tokens. Un ejemplo sería una colección de archivos PDF grandes, cada archivo con más de 30.000 palabras que un usuario desea ingerir en una base de datos vectorial.

Escenario 6: Carga de trabajo de incrustaciones más ligeras

El escenario de incrustaciones más ligero es similar al escenario 5, excepto que reducimos el tamaño de cada solicitud a 16 documentos, cada uno con 512 tokens. Los archivos más pequeños con menos palabras podrían ser compatibles con el escenario 6.