Esta página ha sido traducida por una máquina.

Visión general de Data Science

Oracle Cloud Infrastructure (OCI) Data Science es una plataforma totalmente gestionada y sin servidor que permite a los equipos de ciencia de datos crear, entrenar y gestionar modelos de aprendizaje automático.

El servicio Data Science:

  • Proporciona a los científicos de datos un espacio de trabajo colaborativo basado en proyectos.

  • Permite el acceso sin servidor de autoservicio a la infraestructura para cargas de trabajo de ciencia de datos.

  • Incluye herramientas, bibliotecas y paquetes centrados en Python desarrollados por la comunidad de código abierto y Oracle Accelerated Data Science Library, que admiten el ciclo de vida completo de los modelos predictivos:

    • Adquisición, análisis de perfiles, preparación y visualización de datos.

    • Ingeniería de funciones.

    • Entrenamiento de modelos (incluido Oracle AutoML).

    • Evaluación, explicación e interpretación de modelos (incluido Oracle MLX).

  • Se integra con el resto de la pila de Oracle Cloud Infrastructure, incluido Functions, Data Flow, Autonomous Data Warehouse y Object Storage.

  • Despliegue de modelo como recursos para desplegar modelos como aplicaciones web (puntos finales de API de HTTP).

  • Los trabajos de Data Science permiten definir y ejecutar tareas repetibles de Machine Learning en una infraestructura totalmente gestionada.

  • Los pipelines le permiten ejecutar flujos de trabajo integrales de aprendizaje automático.

  • Incluye políticas y almacenes de datos para controlar el acceso a compartimentos y recursos.

  • Incluye métricas que proporcionan estadísticas sobre el estado, la disponibilidad, el rendimiento y el uso de los recursos de Data Science.
  • Ayuda a los científicos de datos a concentrarse en el método y la experiencia de dominio para ofrecer modelos a la producción.

Consejo

Puede utilizar la Guía de OCI para científicos de datos para empezar.

Conceptos de Data Science

Revise los siguientes conceptos y términos para empezar a utilizar Data Science.

SDK de Accelerated Data Science

El SDK de Oracle Accelerated Data Science (ADS) es una biblioteca Python incluida como parte del servicio OCI Data Science. ADS tiene muchas funciones y objetos que automatizan o simplifican los pasos del flujo de trabajo de Data Science, incluidos la conexión a datos, la exploración y visualización de datos, el entrenamiento de un modelo con AutoML, la evaluación de modelos y la explicación de modelos. Además, ADS proporciona una interfaz para acceder al catálogo de modelos del servicio Data Science y otros servicios de OCI, incluido Object Storage. Para familiarizarse con ADS, consulte la Biblioteca de Accelerated Data Science.

Proyectos

Los proyectos son espacios de trabajo de colaboración para organizar y documentar activos de Data Science como, por ejemplo, modelos y sesiones del bloc de notas.

Sesiones de bloc de notas

Las sesiones de bloc de notas deData Science son entornos de codificación interactivos para crear y entrenar modelos. Las sesiones de bloc de notas incluyen muchos paquetes de Machine Learning y ciencia de datos de código abierto y desarrollados por Oracle preinstalados.

Entornos conda

Conda es un entorno de código abierto y un sistema de gestión de paquetes que se creó para los programas de Python. Instala, ejecuta y actualiza paquetes y sus dependencias. Conda crea, guarda, carga y cambia fácilmente entre entornos de la computadora local.

Modelos

Los modelos definen una representación matemática de sus datos y procesos de negocio. El catálogo de modelos es un lugar en el que puede almacenar, realizar el seguimiento, compartir y gestionar modelos.

Despliegues de modelo

Los despliegues de modelo son un recurso gestionado en el servicio Data Science que permite desplegar modelos almacenados en el catálogo de modelos como puntos finales HTTP. El despliegue de modelos de Machine Learning como aplicaciones web (puntos finales de la API de HTTP) que sirven predicciones en tiempo real es la forma más común de diseñar modelos de producción. Los puntos finales HTTP son flexibles y pueden servir solicitudes de predicciones de modelos.

Trabajos

Los trabajos de Data Science permiten definir y ejecutar tareas repetibles de Machine Learning en una infraestructura totalmente gestionada.

Pipelines

Un pipeline de Data Science es una construcción ejecutable que describe una orquestación integral de aprendizaje automático que se puede ejecutar de forma repetible.

Logs

Integre el servicio Logging en Data Science para crear y gestionar logs personalizados.

Métricas

Supervise el estado, la capacidad y el rendimiento de algunos recursos de Data Science mediante métricas, alarmas y notificaciones.

Revise los conceptos clave de OCI.

Formas de acceder a Data Science

Puede acceder a Data Science con la consola, la API de REST, los SDK o la CLI.

Utilice cualquiera de las siguientes opciones, según sus preferencias y su idoneidad para la tarea que desea completar:

  • La consola de OCI es una interfaz fácil de usar basada en explorador. Para acceder a la consola, debe utilizar un explorador soportado.
  • Las API de REST ofrecen la mayor funcionalidad, pero requieren experiencia en programación. Referencia de API y puntos finales proporciona información detallada sobre los puntos finales y los enlaces a los documentos de referencia de la API disponibles, incluida la API de REST de Data Science .
  • OCI proporciona SDK que interactúan con Data Science sin necesidad de crear un marco.
  • La CLI proporciona un acceso rápido y una funcionalidad completa sin necesidad de programación.

Regiones y dominios de disponibilidad

Los servicios de OCI se alojan en regiones y dominios de disponibilidad. Una región es un área geográfica localizada, mientras que un dominio de disponibilidad es uno o más centros de datos que se encuentran en esa región.

Data Science se aloja en todas las regiones en las que OCI está disponible.

Límites sobre recursos de Data Science

Cuando se registra en OCI, se configura un juego de límites de servicio para su arrendamiento. El límite de servicio es la cuota o asignación establecida para los recursos.

Límites por servicio incluye los límites de Data Science y otros servicios de OCI. Puede solicitar un aumento del límite de servicio para cambiar los valores por defecto.

Consejo

Vea el vídeo sobre el aumento de límites de servicio de Data Science para obtener información detallada.

Además de estos límites de servicio, debe tener en cuenta lo siguiente:

  • Los modelos y las sesiones de bloc de notas incorrectas e inactivas se contabilizan en los límites de su servicio. Solo si se para completamente una instancia o se suprime un modelo, estos no se tienen en cuenta en la cuota.

  • Por defecto, los límites de GPU están definidos en cero, por lo que debe pedir al administrador del sistema que aumente los límites para que pueda utilizar las GPU.

  • El número máximo de trabajos es 1000. Por defecto, cada arrendamiento puede crear hasta 1000 trabajos. Puede aumentar este límite mediante un ticket de solicitud de servicio de CAM.

  • El número de ejecuciones de trabajos simultáneas está limitado por los límites de recuento de núcleos de Data Science.

Identificadores de recurso

La mayoría de los tipos de recursos de OCI tienen un identificador único asignado por Oracle denominado OCID (Oracle Cloud Identifier).

El OCID se incluye como parte de la información del recurso tanto en la consola como en la API. Para obtener información sobre el formato del OCID y otras formas de identificar los recursos, consulte Identificadores de recursos.

Autenticación y autorización

Cada servicio de OCI se integra con Identity and Access Management para acceder a los recursos en la nube mediante todas las interfaces (la consola, los SDK, las API de REST o la CLI de OCI).

Un administrador de la organización debe configurar arrendamientos, grupos, compartimentos y políticas que controlen quién puede acceder a qué servicios y recursos, y el tipo de acceso. El administrador confirma qué compartimentos debe usar.

Utilice Políticas para crear y gestionar proyectos de Data Science o iniciar sesiones de Notebook.

Aprovisionamiento y precios

El servicio Data Science ofrece una experiencia sin servidor para el desarrollo y despliegue de modelos. Cuando crea recursos de Data Science, como sesiones de bloc de notas, modelos, despliegues de modelo y trabajos, la infraestructura informática y de almacenamiento subyacente se aprovisiona y mantiene para el usuario.

Debe pagar por el uso de la infraestructura subyacente (almacenamiento de bloques, recursos informáticos y almacenamiento de objetos). Revise la lista de precios detallada para los recursos de Data Science.

solo debe pagar por la infraestructura mientras la utiliza con los recursos de Data Science:

Sesiones de bloc de notas
  • Las sesiones del bloc de notas no tienen servidor y toda la infraestructura subyacente está gestionada por servicios.

  • Al crear una sesión de bloc de notas, seleccione la unidad de VM (el tipo de CPU o GPU de la máquina, y el número de OCPU o GPU) y la cantidad de almacenamiento de bloques (50 GB como mínimo).

  • Mientras haya una sesión de bloc de notas activa, deberá pagar por los recursos informáticos y el almacenamiento de bloques según las tarifas estándar de Oracle Cloud Infrastructure. Consulte Desactivación de sesiones de bloc de notas.
  • Puede desactivar la sesión de Notebook, que cierra el recurso informático, pero retiene el almacenamiento de bloques. En este caso, ya no se le cobrará por Compute, pero continuará pagando por Block Storage. Esto se aplica a las sesiones de bloc de notas con una instancia de GPU. Las sesiones de bloc de notas con una instancia de GPU no se miden para recursos informáticos cuando están desactivadas.

    Puede activar la sesión de Notebook para volver a asociar este almacenamiento en bloques al nuevo cálculo. Consulte Desactivación y activación de una sesión de Notebook.

  • Cuando suprime una sesión de Notebook, ya no se le cobrará por Compute o Block Storage. Consulte Supresión de una sesión de Notebook.

Modelos
  • Al guardar un modelo en el catálogo de modelos, se le cobrará por el almacenamiento del artefacto del modelo a las tarifas estándar de Object Storage en términos de GB por mes.

  • Cuando suprime un modelo, ya no se le cobrará. Consulte Supresión de un modelo.

Despliegues de modelo
  • Al desplegar un modelo, seleccione el tipo de unidad y el número de réplicas que alojan los servidores de modelos. También puede seleccionar el ancho de banda del equilibrador de carga asociado al despliegue.

  • Cuando un despliegue de modelo está activo, se paga por las máquinas virtuales que alojan los servidores de modelos y el equilibrador de carga según las tarifas estándar de OCI.

  • Al desactivar un despliegue de modelo, ya no se le cobrará por las máquinas virtuales o el equilibrador de carga. Puede reactivar un despliegue de modelo. Al hacerlo, se reanudará la facturación para ambas máquinas virtuales y el equilibrador de carga.

  • Al suprimir un despliegue de modelo, ya no se le cobrará por la infraestructura asociada al despliegue de modelo.

Trabajos
  • Los trabajos no representan un costo premium por el uso del servicio. Solo pagará por la infraestructura subyacente utilizada y solo durante el tiempo de duración de la ejecución del artefacto de trabajo.

  • La medición comienza desde el momento en que se ejecuta el artefacto de trabajo y se para con la salida del código. No pagará por el tiempo de aprovisionamiento de la infraestructura ni por la anulación de aprovisionamiento de la infraestructura.

    La medición incluye el consumo de CPU o GPU por OCPU durante el tiempo de duración de la ejecución del artefacto de trabajo y el tamaño de almacenamiento de bloques utilizado para el trabajo.

  • El uso del servicio Logging con los trabajos no supone un costo adicional.

Pipelines
  • Los pipelines se facturan por el uso de los recursos informáticos y el almacenamiento de bloques subyacentes que el pipeline utiliza para ejecutar el código de paso del pipeline.

  • No hay ningún cargo adicional por la orquestación o el almacenamiento de artefactos.

Consejo

Puede utilizar Comprobación del saldo y el uso para revisar los costos asociados a la cuenta. Además, puede utilizar las herramientas de facturación y pago de Oracle Cloud Infrastructure para analizar el uso de Data Science y gestionar los costos.

Conformidad

Revise los estándares que cumple el servicio Data Science.

El servicio cumple los siguientes estándares:

HIPAA, lo utilizan las empresas de asistencia sanitaria para proteger la privacidad del paciente.

PCI-DSS, lo utiliza el sector de tarjetas de crédito para proteger a los consumidores frente al fraude.