Puntos de referencia de rendimiento de cluster de IA dedicado en IA generativa

Revise las referencias de cluster de IA dedicada de hosting en OCI Generative AI.

Nota

Revise los términos utilizados en las referencias de rendimiento del cluster de AI dedicado.
Para obtener las referencias de cluster de AI dedicado de hosting, haga clic en cada escenario de los escenarios de generación de texto y chat y los escenarios de incrustación de texto.

Términos de referencia de rendimiento


Término	Unidad	Definición
Simulación	(número)	Número de usuarios que realizan solicitudes al mismo tiempo.
Métrica 1: Velocidad de inferencia a nivel de token	token/segundo	Esta métrica se define como el número de tokens de salida generados por unidad de latencia completa. Para las aplicaciones en las que se requiere la velocidad media de lectura humana, los usuarios deben centrarse en escenarios en los que la velocidad es de 5 tokens/s o más, que es la velocidad media de lectura humana. En otros escenarios que requieren una generación de tokens casi en tiempo real más rápida, como 15 tokens/segunda velocidad de inferencia, por ejemplo, diálogo/chatbot donde el número de usuarios simultáneos que se podrían servir es menor y el rendimiento general es menor.
Métrica 2: Rendimiento Global a Nivel de Token	token/segundo	Esta métrica cuantifica el promedio de tokens generados por el servidor en todas las solicitudes de usuario simultáneas. Proporciona una medida agregada de la capacidad y la eficiencia del servidor para atender las solicitudes entre los usuarios. Cuando la velocidad de inferencia es menos crítica, como en las tareas de procesamiento por lotes fuera de línea, el foco debe estar en los picos de rendimiento y, por lo tanto, la rentabilidad del servidor es mayor. Esto indica la capacidad del LLM para manejar un gran número de solicitudes simultáneas, ideal para el procesamiento por lotes o tareas en segundo plano donde la respuesta inmediata no es esencial. Nota: La referencia de rendimiento global de nivel de token se ha realizado mediante la herramienta LLMPerf. El cálculo de rendimiento tiene un problema en el que incluye el tiempo necesario para codificar el texto generado para el cálculo de token.
Métrica 3: Latencia de nivel de solicitud	segundo	Tiempo medio transcurrido entre el envío de la solicitud y el tiempo que tardó en completar la solicitud, por ejemplo, después de que se generara el último token de la solicitud.
Métrica 4: Rendimiento Global de Nivel de Solicitud (RPM)	solicitud/segundo	Número de solicitudes atendidas por unidad de tiempo, en este caso por minuto.

Importante

El rendimiento (velocidad de inferencia, rendimiento, latencia) de un cluster de IA dedicado de hosting depende de los escenarios de tráfico que atraviesan el modelo que aloja. Los escenarios de tráfico dependen de:

Número de solicitudes simultáneas.
El número de tokens en la petición de datos.
El número de tokens en la respuesta.
Variación de (2) y (3) entre solicitudes.

Escenarios de generación de texto y chat


Caso	Descripción
Escenario 1: Petición de datos estocástica y longitudes de respuesta	Este escenario imita los casos de uso de generación de texto en los que el tamaño de la petición de datos y la respuesta son desconocidos con antelación. En este escenario, debido a la longitud desconocida de la petición de datos y la respuesta, hemos utilizado un enfoque estocástico donde tanto la longitud de la petición de datos como la de la respuesta siguen una distribución normal: La longitud de la petición de datos sigue a una distribución normal con una media de 480 tokens y una desviación estándar de 240 tokens La longitud de respuesta sigue a una distribución normal con una media de 300 tokens y una desviación estándar de 150 tokens.
Escenario 2: Generación con recuperación aumentada (RAG)	El escenario de GR tiene una petición de datos muy larga y una respuesta corta. Este escenario también imita los casos de uso de resumen. La longitud de la petición de datos se fija a 2.000 tokens. La longitud de respuesta se fija a 200 tokens.
Escenario 3: Generación pesada	Este escenario es para casos de uso intensivos de respuesta de generación/modelo. Por ejemplo, una descripción de puesto larga generada a partir de una breve lista de elementos. Para este caso, definimos las siguientes longitudes de token: La longitud de la petición de datos se fija a 100 tokens. La longitud de respuesta se fija en 1.000 tokens.
Escenario 4: Chatbot	Este escenario abarca casos de uso de chatbot/recuadro de diálogo donde la petición de datos y las respuestas son más cortas. La longitud de la petición de datos se fija a 100 tokens. La longitud de respuesta se fija a 100 tokens.

Escenarios de incrustación de texto


Caso	Descripción
Escenario 5: incrustaciones	El escenario 5 solo se aplica a los modelos de incrustación. Este escenario imita la generación de incrustaciones como parte del pipeline de ingestión de datos de una base de datos vectorial. En este escenario, todas las solicitudes tienen el mismo tamaño, que es de 96 documentos, cada uno con 512 tokens. Un ejemplo sería una colección de archivos PDF grandes, cada archivo con más de 30.000 palabras que un usuario desea ingerir en una base de datos vectorial.
Escenario 6: Carga de trabajo de incrustaciones más ligeras	El escenario de incrustaciones más ligero es similar al escenario 5, excepto que reducimos el tamaño de cada solicitud a 16 documentos, cada uno con 512 tokens. Los archivos más pequeños con menos palabras podrían ser compatibles con el escenario 6.

Documentación de Oracle Cloud Infrastructure Probar cuenta gratuita

Puntos de referencia de rendimiento de cluster de IA dedicado en IA generativa

Términos de referencia de rendimiento 🔗

Escenarios de generación de texto y chat 🔗

Escenarios de incrustación de texto 🔗

Documentación de Oracle Cloud Infrastructure
Probar cuenta gratuita

Términos de referencia de rendimiento

Escenarios de generación de texto y chat

Escenarios de incrustación de texto