Número de usuarios que realizan solicitudes al mismo tiempo.
Métrica 1: Velocidad de inferencia a nivel de token
token/segundo
Esta métrica se define como el número de tokens de salida generados por unidad de latencia completa.
Para las aplicaciones en las que se requiere la velocidad media de lectura humana, los usuarios deben centrarse en escenarios en los que la velocidad es de 5 tokens/s o más, que es la velocidad media de lectura humana.
En otros escenarios que requieren una generación de tokens casi en tiempo real más rápida, como 15 tokens/segunda velocidad de inferencia, por ejemplo, diálogo/chatbot donde el número de usuarios simultáneos que se podrían servir es menor y el rendimiento general es menor.
Métrica 2: Rendimiento Global a Nivel de Token
token/segundo
Esta métrica cuantifica el promedio de tokens generados por el servidor en todas las solicitudes de usuario simultáneas. Proporciona una medida agregada de la capacidad y la eficiencia del servidor para atender las solicitudes entre los usuarios.
Cuando la velocidad de inferencia es menos crítica, como en las tareas de procesamiento por lotes fuera de línea, el foco debe estar en los picos de rendimiento y, por lo tanto, la rentabilidad del servidor es mayor. Esto indica la capacidad del LLM para manejar un gran número de solicitudes simultáneas, ideal para el procesamiento por lotes o tareas en segundo plano donde la respuesta inmediata no es esencial.
Nota: La referencia de rendimiento global de nivel de token se ha realizado mediante la herramienta LLMPerf. El cálculo de rendimiento tiene un problema en el que incluye el tiempo necesario para codificar el texto generado para el cálculo de token.
Métrica 3: Latencia de nivel de solicitud
segundo
Tiempo medio transcurrido entre el envío de la solicitud y el tiempo que tardó en completar la solicitud, por ejemplo, después de que se generara el último token de la solicitud.
Métrica 4: Rendimiento Global de Nivel de Solicitud (RPM)
solicitud/segundo
Número de solicitudes atendidas por unidad de tiempo, en este caso por minuto.
Importante
El rendimiento (velocidad de inferencia, rendimiento, latencia) de un cluster de IA dedicado de hosting depende de los escenarios de tráfico que atraviesan el modelo que aloja. Los escenarios de tráfico dependen de:
Este escenario imita los casos de uso de generación de texto en los que el tamaño de la petición de datos y la respuesta son desconocidos con antelación.
En este escenario, debido a la longitud desconocida de la petición de datos y la respuesta, hemos utilizado un enfoque estocástico donde tanto la longitud de la petición de datos como la de la respuesta siguen una distribución normal:
La longitud de la petición de datos sigue a una distribución normal con una media de 480 tokens y una desviación estándar de 240 tokens
La longitud de respuesta sigue a una distribución normal con una media de 300 tokens y una desviación estándar de 150 tokens.
Este escenario es para casos de uso intensivos de respuesta de generación/modelo. Por ejemplo, una descripción de puesto larga generada a partir de una breve lista de elementos. Para este caso, definimos las siguientes longitudes de token:
La longitud de la petición de datos se fija a 100 tokens.
El escenario 5 solo se aplica a los modelos de incrustación. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial.
En este escenario, todas las solicitudes tienen el mismo tamaño, que es de 96 documentos, cada uno con 512 tokens. Un ejemplo sería una colección de archivos PDF grandes, cada archivo con más de 30.000 palabras que un usuario desea ingerir en una base de datos vectorial.
El escenario de incrustaciones más ligero es similar al escenario 5, excepto que reducimos el tamaño de cada solicitud a 16 documentos, cada uno con 512 tokens. Los archivos más pequeños con menos palabras podrían ser compatibles con el escenario 6.