Esta página ha sido traducida por una máquina.

Soporte de modelo grande

Los servicios Data Science Model Deployment y Model Catalog ahora soportan grandes despliegues de modelos.

Los artefactos de modelo grandes se pueden almacenar en el servicio de catálogo de modelos y se pueden utilizar para crear despliegues de modelos. La función de asignación de puntos finales permite integrar contenedores de inferencia, como la interfaz de generación de texto (TGI), incluso si no cumplen con los contratos de API estándar para los puntos finales /predict y /health.

Creación de un despliegue de modelos para modelos grandes

El despliegue de modelos soporta Traiga su propio contenedor (BYOC). Cree y utilice un contenedor personalizado como dependencia de tiempo de ejecución al crear un despliegue de modelo. Con los contenedores personalizados, puede empaquetar dependencias de sistema e idioma, instalar y configurar servidores de inferencia, y configurar diferentes tiempos de ejecución de idioma, todo dentro de los límites definidos de una interfaz con un recurso de despliegue de modelo para ejecutar los contenedores. BYOC significa que puede transferir contenedores entre diferentes entornos para que pueda migrar y desplegar aplicaciones en OCI Cloud.

Cambios en el catálogo de modelos

Cree un modelo y guárdelo en el catálogo de modelos mediante el SDK de ADS, el SDK de OCI Python o la consola. Para obtener más información, consulte Creación y Guardado de un Modelo en el Catálogo de Modelos y Artefactos de Modelos Grandes. El catálogo de modelos grande utiliza la misma función de exportación para guardar modelos en el catálogo de modelos. La experiencia del usuario no es diferente al comportamiento documentado.
Importante

Despliegue de grandes modelos

El despliegue de modelos está diseñado para soportar una serie de marcos de inferencia de aprendizaje automático, atendiendo a las diversas necesidades de los grandes despliegues de modelos. Entre ellos, OCI admite la interfaz de generación de texto (TGI), el servidor de inferencia NVIDIA Triton y los modelos de lenguaje grande virtual (VLLM) para modelos de lenguaje grande (LLM). Este soporte le permite seleccionar el marco que mejor se ajuste a los requisitos de despliegue. La integración de TGI con OCI admite el uso personalizado de contenedores, lo que permite configuraciones de entornos precisas adaptadas a comportamientos y dependencias de modelos específicos. Para los modelos que requieren recursos computacionales intensivos, especialmente los de IA y aprendizaje profundo, NVIDIA Triton Inference Server ofrece una ruta optimizada en OCI. Ayuda con la gestión eficiente de los recursos de GPU y admite una amplia gama de marcos de aprendizaje automático como TensorFlow, PyTorch y ONNX. El manejo de OCI de VLLM y NVIDIA Triton TensorRT LLM proporciona optimizaciones especializadas para grandes modelos de lenguaje. Estos marcos se benefician de capacidades de rendimiento mejoradas a través de técnicas de optimización avanzadas, como la fusión de capas y la calibración de precisión, que son cruciales para manejar las demandas computacionales muy grandes de las tareas de procesamiento de lenguaje a gran escala. Al desplegar estos marcos en OCI, puedes utilizar inferencia de alto rendimiento y baja latencia, lo que lo hace ideal para aplicaciones que requieren comprensión y generación de lenguaje en tiempo real. A continuación, se proporciona más información sobre el despliegue de cada opción:

¿Le ha resultado útil este artículo?