Uso de sesiones de bloc de notas para crear y entrenar modelos

Después de crear una sesión de bloc de notas, puede escribir y ejecutar código Python con las bibliotecas de aprendizaje automático en la interfaz JupyterLab para crear y entrenar modelos.

Autenticación a las API de OCI desde una sesión de bloc de notas

Al trabajar en una sesión de bloc de notas, está operando como usuario de Linux datascience. Este usuario no tiene una identidad de OCI Identity and Access Management (IAM), por lo que no tiene acceso a la API de OCI. Los recursos de OCI incluyen proyectos y modelos de Data Science y los recursos de otros servicios de OCI, como Object Storage, Functions, Vault, Data Flow, etc. Para acceder a estos recursos desde el entorno del bloc de notas, utilice uno de los dos métodos de autenticación:

(Recomendado) Autenticación mediante la entidad de recurso de una sesión de bloc de notas

Una entidad de recurso es una función de IAM que permite que los recursos sean actores autorizados o principales para realizar acciones en los recursos de servicio. Cada recurso tiene su propia identidad y se autentica con los certificados que tiene agregados. Estos certificados se crean automáticamente, se asignan a recursos y se rotan, lo que evita la necesidad de almacenar credenciales en una sesión de un portátil.

El servicio Data Science le permite autenticarse mediante una entidad de recurso de una sesión de Notebook para acceder a otros recursos de OCI. Los principales de recurso proporcionan una forma más segura de autenticarse en los recursos en comparación con la configuración de OCI y el método de clave de API

Un administrador de arrendamiento debe escribir políticas para otorgar permisos a una entidad de recurso para acceder a otros recursos de OCI. Consulte Uso de Oracle Resource Manager para configurar su arrendamiento para Data Science.

Puede autenticarse con principales de recurso en una sesión de bloc de notas mediante las siguientes interfaces:

SDK de Oracle Accelerated Data Science:

Ejecute lo siguiente en una celda del bloc de notas:

import ads
ads.set_auth(auth='resource_principal')

Para obtener más información, consulte Documentación sobre Accelerated Data Science .

SDK de Python de OCI:

Ejecute lo siguiente en una celda del bloc de notas.

import oci
from oci.data_science import DataScienceClient
rps = oci.auth.signers.get_resource_principals_signer()
dsc = DataScienceClient(config={}, signer=rps)
CLI de OCI:

Utilice el indicador `--auth=resource_principal` con comandos.

Nota

El token de la entidad de recurso se almacena en caché durante 15 minutos. Si cambia la política o el grupo dinámico, debe esperar 15 minutos para ver el efecto de los cambios.
Importante

Si no utiliza explícitamente los principales de recurso al llamar a un SDK o una CLI, se utilizará el archivo de configuración y el método de clave de API

(Valor por defecto) Autenticación mediante el archivo de configuración de OCI y las claves de API

Puede operar como su propio usuario de IAM configurando un archivo de configuración de OCI y claves de API para acceder a los recursos de OCI. Este es el método de autenticación por defecto

Para autenticarse mediante el método de archivo de configuración y clave de API, debe cargar un archivo de configuración de OCI en el directorio /home/datascience/.oci/ de la sesión de bloc de notas. Para el perfil relevante definido en el archivo de configuración de OCI, también debe cargar o crear los archivos .pem necesarios.

Configure el archivo de configuración de OCI y la clave de API mediante Claves y OCID necesarios.

Cómo trabajar con archivos de código existente

Puede crear nuevos archivos o trabajar con sus propios archivos existentes.

Carga de archivos

Los archivos se pueden cargar desde la máquina local seleccionando Cargar en la interfaz JupyterLab o arrastrando y borrando archivos.

Uso de comandos de terminal adicionales

Uso de las variables de entorno proporcionadas en las sesiones del bloc de notas

Al iniciar una sesión de bloc de notas, el servicio crea variables de entorno útiles que se pueden utilizar en el código:

Nombre de clave de variable

Descripción

Especificado por

TENANCY_OCID

OCID del arrendamiento al que pertenece el bloc de notas.

Se rellena automáticamente con Data Science.

PROJECT_OCID

OCID del proyecto asociado a la sesión de bloc de notas actual.

Se rellena automáticamente con Data Science.

PROJECT_COMPARTMENT_OCID

OCID del compartimento del proyecto al que está asociado el bloc de notas.

Se rellena automáticamente con Data Science.

USER_OCID

OCID de usuario.

Se rellena automáticamente con Data Science.

NB_SESSION_OCID

OCID de la sesión de bloc de notas actual.

Se rellena automáticamente con Data Science.

NB_SESSION_COMPARTMENT_OCID

OCID de compartimento de la sesión de bloc de notas actual.

Se rellena automáticamente con Data Science.

OCI_RESOURCE_PRINCIPAL_RPT_PATH

Ruta al token de entidad de recurso de OCI.

Se rellena automáticamente con Data Science.

OCI_RESOURCE_PRINCIPAL_RPT_ID

ID del token de entidad de recurso de OCI.

Se rellena automáticamente con Data Science.

NB_ONCREATE_SCRIPT_URL

URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al crear.

Especificado por el Usuario.

NB_ONACTIVATE_SCRIPT_URL

URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al activar.

Especificado por el Usuario.

NB_ONDEACTIVATE_SCRIPT_URL

URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al desactivar.

Especificado por el Usuario.

NB_ONDELETE_SCRIPT_URL

URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al suprimir.

Especificado por el Usuario.

NB_SCRIPT_OUTPUT_LOG_NAMESPACE

Espacio de nombres de Object Storage para logs de salida de script de ciclo de vida de bloc de notas.

Especificado por el Usuario.

NB_SCRIPT_OUTPUT_LOG_BUCKET

Cubo de Object Storage para logs de salida de script de ciclo de vida de bloc de notas.

Especificado por el Usuario.

SECURE_DATA_SESSION

Desactive la descarga de archivos del cliente JupyterLab y la API de descarga JupyterLab, definida en True para desactivar la funcionalidad de descarga.

Especificado por el Usuario.

SHM_SIZE Espacio de memoria compartida, introduzca el tamaño de memoria seguido de las unidades: g para GB, m para MB y b para bytes. Por ejemplo, introduzca 128g para 128 GB de espacio de memoria compartida. Especificado por el Usuario.

Para acceder a estas variables de entorno en la sesión de bloc de notas, utilice la biblioteca os de Python. Por ejemplo:

import os 
project_ocid = os.environ['PROJECT_OCID']
print(project_ocid)
Nota

Los valores NB_SESSION_COMPARTMENT_OCID y PROJECT_COMPARTMENT_OCID no se actualizan en una sesión de Notebook en ejecución si los recursos se han movido de compartimentos una vez creada la sesión de Notebook.

Uso de variables de entorno personalizadas

Utilice sus propias variables de entorno personalizadas en sesiones de bloc de notas.

Después de definir las variables de entorno personalizadas, acceda a estas variables de entorno en una sesión de Notebook con la biblioteca os de Python. Por ejemplo, si define un par de valores de clave con la clave MY_CUSTOM_VAR1 y el valor VALUE-1, al ejecutar el siguiente código, obtendrá VALUE-1.

import os 
my_custom_var1 = os.environ['MY_CUSTOM_VAR1']
print(my_custom_var1)
Nota

El sistema no permite sobrescribir las variables de entorno proporcionadas por el sistema con las personalizadas. Por ejemplo, no puede asignar un nombre a una variable personalizada, USER_OCID.

Uso del SDK de Oracle Accelerated Data Science

El SDK de Oracle Accelerated Data Science (ADS) acelera las actividades comunes de ciencia de datos al proporcionar herramientas que automatizan y simplifican las tareas comunes de ciencia de datos. Proporciona a los científicos de datos una interfaz de Python fácil de usar para los servicios de OCI, incluidos Data Science, como trabajos, Big Data, Data Flow, Object Storage, Streaming y Vault, y para Oracle Database. ADS le proporciona una interfaz para gestionar el ciclo de vida de los modelos de aprendizaje automático, desde la adquisición de datos hasta la evaluación, interpretación y despliegue de modelos.

Con ADS puede:

  • Lea conjuntos de datos de Object Storage, Oracle Database (ATP, ADW y on-premises), AWS S3 y otros orígenes en marcos de datos de Pandas.
  • Ajuste modelos mediante la optimización de hiperparámetros con el módulo ADSTuner.
  • Genere informes de evaluación detallados de los candidatos modelo con el módulo ADSEvaluator.
  • Guarde los modelos de aprendizaje automático en el catálogo de modelos de Data Science.
  • Despliegue modelos como solicitudes HTTP con el despliegue de modelos.
  • Inicie trabajos distribuidos de ETL, procesamiento de datos y entrenamiento de modelos en Spark mediante Data Flow.
  • conectarse al BDS desde la sesión de bloc de notas, el cluster creado debe tener Kerberos activado.

    Utilice clusters activados para Kerberos para conectarse a Big Data desde una sesión de bloc de notas.

  • Utilice tipos de funciones para caracterizar datos, crear estadísticas de resumen de significados y trazar. Utilice el sistema de advertencia y validación para probar la calidad de los datos.
  • Entrene modelos de aprendizaje automático con Trabajos de Data Science.
  • Gestione el ciclo de vida de los entornos conda mediante la CLI ads conda.