Soporte de modelo grande
Los servicios Data Science Model Deployment y Model Catalog ahora soportan grandes despliegues de modelos.
Los artefactos de modelo grandes se pueden almacenar en el servicio de catálogo de modelos y se pueden utilizar para crear despliegues de modelos. La función de asignación de puntos finales permite integrar contenedores de inferencia, como la interfaz de generación de texto (TGI), incluso si no cumplen con los contratos de API estándar para los puntos finales /predict
y /health
.
Creación de un despliegue de modelos para modelos grandes
El despliegue de modelos soporta Traiga su propio contenedor (BYOC). Cree y utilice un contenedor personalizado como dependencia de tiempo de ejecución al crear un despliegue de modelo. Con los contenedores personalizados, puede empaquetar dependencias de sistema e idioma, instalar y configurar servidores de inferencia, y configurar diferentes tiempos de ejecución de idioma, todo dentro de los límites definidos de una interfaz con un recurso de despliegue de modelo para ejecutar los contenedores. BYOC significa que puede transferir contenedores entre diferentes entornos para que pueda migrar y desplegar aplicaciones en OCI Cloud.
Cambios en el catálogo de modelos
-
Recomendamos que cree y guarde modelos en el catálogo de modelos mediante programación con ADS o el SDK de Python de OCI.
-
Puede utilizar ADS para crear modelos grandes. Los modelos grandes tienen limitaciones de artefactos de hasta 400 GB.
Despliegue de grandes modelos
El despliegue de modelos está diseñado para soportar una serie de marcos de inferencia de aprendizaje automático, atendiendo a las diversas necesidades de los grandes despliegues de modelos. Entre ellos, OCI admite la interfaz de generación de texto (TGI), el servidor de inferencia NVIDIA Triton y los modelos de lenguaje grande virtual (VLLM) para modelos de lenguaje grande (LLM). Este soporte le permite seleccionar el marco que mejor se ajuste a los requisitos de despliegue. La integración de TGI con OCI admite el uso personalizado de contenedores, lo que permite configuraciones de entornos precisas adaptadas a comportamientos y dependencias de modelos específicos. Para los modelos que requieren recursos computacionales intensivos, especialmente los de IA y aprendizaje profundo, NVIDIA Triton Inference Server ofrece una ruta optimizada en OCI. Ayuda con la gestión eficiente de los recursos de GPU y admite una amplia gama de marcos de aprendizaje automático como TensorFlow, PyTorch y ONNX. El manejo de OCI de VLLM y NVIDIA Triton TensorRT LLM proporciona optimizaciones especializadas para grandes modelos de lenguaje. Estos marcos se benefician de capacidades de rendimiento mejoradas a través de técnicas de optimización avanzadas, como la fusión de capas y la calibración de precisión, que son cruciales para manejar las demandas computacionales muy grandes de las tareas de procesamiento de lenguaje a gran escala. Al desplegar estos marcos en OCI, puedes utilizar inferencia de alto rendimiento y baja latencia, lo que lo hace ideal para aplicaciones que requieren comprensión y generación de lenguaje en tiempo real. A continuación, se proporciona más información sobre el despliegue de cada opción:
Para obtener información básica sobre el despliegue de modelos grandes con TGI, consulte el sitio web HuggingFace.
Para conocer los pasos para desplegar modelos grandes mediante TGI, consulte la documentación en GitHub.
Triton Inference Server está diseñado para optimizar el despliegue y la gestión de modelos de IA grandes, soportando varios marcos como TensorFlow, PyTorch y ONNX en una única arquitectura unificada. Mediante el uso de BYOC en el despliegue de modelos, puede personalizar entornos para optimizar el rendimiento y el uso de recursos según las necesidades específicas del proyecto. Esta configuración mejora las capacidades de Triton, lo que la hace ideal para desplegar modelos complejos de forma eficiente y rentable en OCI. A continuación se muestra un ejemplo para desplegar el modelo de conjunto Falcon TensorRT con un Triton Inference Server de NVIDIA mediante el soporte de Bring Your Own Container del despliegue de modelos de OCI Data Science. El ejemplo se basa en Triton's inflight_batcher_llm. Los archivos del motor TensorRT del modelo Falcon se deben generar mediante TensorRT-LLM/examples/falcon.
Siga los pasos de GitHub para desplegar modelos grandes con Triton TensoRT LLM.
A medida que las aplicaciones de IA se basan cada vez más en modelos de lenguaje sofisticados, la necesidad de servidores de inferencia eficientes y de alto rendimiento ha crecido. vLLM es una biblioteca de código abierto para la inferencia y el servicio rápidos de LLM. vLLM utiliza PagedAttention, un algoritmo de atención que gestiona claves y valores de atención.
Siga los pasos para desplegar modelos grandes mediante vLLM y los pasos para desplegar Meta-Llama-3-8B-Instruct con el contenedor vLLM(0.3.0) gestionado por el servicio Oracle en GitHub.