Soporte de modelo grande

Los servicios Data Science Model Deployment y Model Catalog ahora soportan grandes despliegues de modelos.

Los artefactos de modelo grandes se pueden almacenar en el servicio de catálogo de modelos y se pueden utilizar para crear despliegues de modelos. La función de asignación de puntos finales permite integrar contenedores de inferencia, como la interfaz de generación de texto (TGI), incluso si no cumplen con los contratos de API estándar para los puntos finales /predict y /health.

Creación de un despliegue de modelos para modelos grandes

El despliegue de modelos soporta Traiga su propio contenedor (BYOC). Cree y utilice un contenedor personalizado como dependencia de tiempo de ejecución al crear un despliegue de modelo. Con los contenedores personalizados, puede empaquetar dependencias de sistema e idioma, instalar y configurar servidores de inferencia, y configurar diferentes tiempos de ejecución de idioma, todo dentro de los límites definidos de una interfaz con un recurso de despliegue de modelo para ejecutar los contenedores. BYOC significa que puede transferir contenedores entre diferentes entornos para que pueda migrar y desplegar aplicaciones en OCI Cloud.

Cambios en el catálogo de modelos

Cree un modelo y guárdelo en el catálogo de modelos mediante el SDK de ADS, el SDK de OCI Python o la consola. Para obtener más información, consulte Creación y Guardado de un Modelo en el Catálogo de Modelos y Artefactos de Modelos Grandes. El catálogo de modelos grande utiliza la misma función de exportación para guardar modelos en el catálogo de modelos. La experiencia del usuario no es diferente al comportamiento documentado.

Importante

Recomendamos que cree y guarde modelos en el catálogo de modelos mediante programación con ADS o el SDK de Python de OCI.
Puede utilizar ADS para crear modelos grandes. Los modelos grandes tienen limitaciones de artefactos de hasta 400 GB.

Despliegue de grandes modelos

El despliegue de modelos está diseñado para soportar una serie de marcos de inferencia de aprendizaje automático, atendiendo a las diversas necesidades de los grandes despliegues de modelos. Entre ellos, OCI admite la interfaz de generación de texto (TGI), el servidor de inferencia NVIDIA Triton y los modelos de lenguaje grande virtual (VLLM) para modelos de lenguaje grande (LLM). Este soporte le permite seleccionar el marco que mejor se ajuste a los requisitos de despliegue. La integración de TGI con OCI admite el uso personalizado de contenedores, lo que permite configuraciones de entornos precisas adaptadas a comportamientos y dependencias de modelos específicos. Para los modelos que requieren recursos computacionales intensivos, especialmente los de IA y aprendizaje profundo, NVIDIA Triton Inference Server ofrece una ruta optimizada en OCI. Ayuda con la gestión eficiente de los recursos de GPU y admite una amplia gama de marcos de aprendizaje automático como TensorFlow, PyTorch y ONNX. El manejo de OCI de VLLM y NVIDIA Triton TensorRT LLM proporciona optimizaciones especializadas para grandes modelos de lenguaje. Estos marcos se benefician de capacidades de rendimiento mejoradas a través de técnicas de optimización avanzadas, como la fusión de capas y la calibración de precisión, que son cruciales para manejar las demandas computacionales muy grandes de las tareas de procesamiento de lenguaje a gran escala. Al desplegar estos marcos en OCI, puedes utilizar inferencia de alto rendimiento y baja latencia, lo que lo hace ideal para aplicaciones que requieren comprensión y generación de lenguaje en tiempo real. A continuación, se proporciona más información sobre el despliegue de cada opción:

Despliegue de modelos grandes mediante la interfaz de generación de texto (TGI)

Despliegue modelos grandes con el servidor de inferencia Triton de NVIDIA

Despliegue de modelos grandes con el servidor de inferencia vLLM

Documentación de Oracle Cloud Infrastructure Probar cuenta gratuita

Soporte de modelo grande

Creación de un despliegue de modelos para modelos grandes

Cambios en el catálogo de modelos

Despliegue de grandes modelos

Documentación de Oracle Cloud Infrastructure
Probar cuenta gratuita