Uso de sesiones de bloc de notas para crear y entrenar modelos
Después de crear una sesión de bloc de notas, puede escribir y ejecutar código Python con las bibliotecas de aprendizaje automático en la interfaz JupyterLab para crear y entrenar modelos.
Autenticación a las API de OCI desde una sesión de bloc de notas
Al trabajar en una sesión de Notebook, se utiliza como usuario de Linux datascience. Este usuario no tiene una identidad de OCI Identity and Access Management (IAM), por lo que no tiene acceso a la API de OCI. Los recursos de OCI incluyen proyectos y modelos de Data Science y los recursos de otros servicios de OCI, como Object Storage, Functions, Vault, Data Flow, etc. Para acceder a estos recursos desde el entorno del bloc de notas, utilice uno de los dos métodos de autenticación:
(Recomendado) Autenticación mediante la entidad de recurso de una sesión de bloc de notas 🔗
Una entidad de recurso es una función de IAM que permite que los recursos sean actores autorizados o principales para realizar acciones en los recursos de servicio. Cada recurso tiene su propia identidad y se autentica con los certificados que tiene agregados. Estos certificados se crean automáticamente, se asignan a recursos y se rotan, lo que evita la necesidad de almacenar credenciales en una sesión de un Notebook.
El servicio Data Science le permite autenticarse mediante una entidad de recurso de la sesión de Notebook para acceder a otros recursos de OCI. Los principales de recurso proporcionan una forma más segura de autenticarse en los recursos en comparación con la configuración de OCI y el método de clave de API
Un administrador de arrendamiento debe escribir políticas para otorgar permisos para que una entidad de recurso acceda a otros recursos de OCI. consulte Configuración del arrendamiento para Data Science.
Puede autenticarse con principales de recurso en una sesión de bloc de notas mediante las siguientes interfaces:
SDK de Oracle Accelerated Data Science:
Ejecute lo siguiente en una celda del bloc de notas:
Utilice el indicador `--auth=resource_principal` con comandos.
Nota
El token de la entidad de recurso se almacena en caché durante 15 minutos. Si cambia la política o el grupo dinámico, debe esperar 15 minutos para ver el efecto de los cambios.
Importante
Si no utiliza explícitamente los principales de recurso al llamar a un SDK o una CLI, se utilizará el archivo de configuración y el método de clave de API
(Valor por defecto) Autenticación mediante el archivo de configuración de OCI y las claves de API 🔗
Puede operar como su propio usuario de IAM configurando un archivo de configuración de OCI y claves de API para acceder a los recursos de OCI. Este es el método de autenticación por defecto
Para autenticarse mediante el método de archivo de configuración y clave de API, debe cargar un archivo de configuración de OCI en el directorio /home/datascience/.oci/ de la sesión de bloc de notas. Para el perfil relevante definido en el archivo de configuración de OCI, también debe cargar o crear los archivos .pem necesarios.
Configure el archivo de configuración de OCI y la clave de API mediante Claves y OCID necesarios.
Cómo trabajar con archivos de código existente 🔗
Puede crear nuevos archivos o trabajar con sus propios archivos existentes.
Puede ejecutar los comandos sftp, scp, curl, wget o rsync para extraer archivos en el entorno de sesión de bloc de notas según las limitaciones de red impuestas por la selección de VCN y subred.
Instalación de bibliotecas Python adicionales 🔗
Puede instalar una biblioteca que no esté preinstalada en la imagen de sesión de bloc de notas. Puede instalar y cambiar un entorno conda predefinido o crear un entorno conda desde cero.
Uso de las variables de entorno proporcionadas en las sesiones del bloc de notas 🔗
Al iniciar una sesión de bloc de notas, el servicio crea variables de entorno útiles que se pueden utilizar en el código:
Nombre de clave variable
Descripción
Especificado por
TENANCY_OCID
OCID del arrendamiento al que pertenece el bloc de notas.
Se rellena automáticamente con Data Science.
PROJECT_OCID
OCID del proyecto asociado a la sesión de bloc de notas actual.
Se rellena automáticamente con Data Science.
PROJECT_COMPARTMENT_OCID
OCID del compartimento del proyecto al que está asociado el bloc de notas.
Se rellena automáticamente con Data Science.
USER_OCID
OCID de usuario.
Se rellena automáticamente con Data Science.
NB_SESSION_OCID
OCID de la sesión de bloc de notas actual.
Se rellena automáticamente con Data Science.
NB_SESSION_COMPARTMENT_OCID
OCID de compartimento de la sesión de bloc de notas actual.
Se rellena automáticamente con Data Science.
OCI_RESOURCE_PRINCIPAL_RPT_PATH
Ruta al token de entidad de recurso de OCI.
Se rellena automáticamente con Data Science.
OCI_RESOURCE_PRINCIPAL_RPT_ID
ID del token de entidad de recurso de OCI.
Se rellena automáticamente con Data Science.
NB_ONCREATE_SCRIPT_URL
URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al crear.
Especificado por el Usuario.
NB_ONACTIVATE_SCRIPT_URL
URL de script de ciclo de vida de sesión de bloc de notas que se ejecutará al activar.
Especificado por el Usuario.
NB_ONDEACTIVATE_SCRIPT_URL
URL de script de ciclo de vida de sesión de bloc de notas que se ejecutará al desactivar.
Especificado por el Usuario.
NB_ONDELETE_SCRIPT_URL
URL de script de ciclo de vida de sesión de bloc de notas que se ejecutará al suprimir.
Especificado por el Usuario.
NB_SCRIPT_OUTPUT_LOG_NAMESPACE
Espacio de nombres de Object Storage para logs de salida de script de ciclo de vida de bloc de notas.
Especificado por el Usuario.
NB_SCRIPT_OUTPUT_LOG_BUCKET
Cubo de almacenamiento de objetos para logs de salida de script de ciclo de vida de bloc de notas.
Especificado por el Usuario.
SECURE_DATA_SESSION
Desactive la descarga de archivos desde el cliente JupyterLab y la API de descarga JupyterLab; defínala en Verdadero para desactivar la funcionalidad de descarga.
Especificado por el Usuario.
SHM_SIZE
Espacio de memoria compartida, introduzca el tamaño de memoria seguido de las unidades: g para GB, m para MB y b para bytes. Por ejemplo, introduzca 128g para 128 GB de espacio de memoria compartida.
Especificado por el Usuario.
Para acceder a estas variables de entorno en la sesión de bloc de notas, utilice la biblioteca os de Python. Por ejemplo:
Copiar
import os
project_ocid = os.environ['PROJECT_OCID']
print(project_ocid)
Nota
Los valores NB_SESSION_COMPARTMENT_OCID y PROJECT_COMPARTMENT_OCIDno se actualizan en una sesión de bloc de notas en ejecución si los recursos se han movido de compartimentos una vez creada la sesión de bloc de notas.
Uso de variables de entorno personalizadas 🔗
Utilice sus propias variables de entorno personalizadas en sesiones de bloc de notas.
Después de definir las variables de entorno personalizadas, acceda a estas variables de entorno en una sesión de bloc de notas con la biblioteca os de Python. Por ejemplo, si define un par de valores de clave con la clave MY_CUSTOM_VAR1 y el valor VALUE-1, al ejecutar el siguiente código, obtendrá VALUE-1.
Copiar
import os
my_custom_var1 = os.environ['MY_CUSTOM_VAR1']
print(my_custom_var1)
El SDK de Oracle Accelerated Data Science (ADS) acelera las actividades comunes de ciencia de datos al proporcionar herramientas que automatizan y simplifican las tareas comunes de ciencia de datos. Proporciona a los científicos de datos una interfaz de Python fácil de usar para los servicios de OCI, incluidos Data Science, como trabajos, Big Data, Data Flow, Object Storage, Streaming y Vault, y para Oracle Database. ADS le proporciona una interfaz para gestionar el ciclo de vida de los modelos de aprendizaje automático, desde la adquisición de datos hasta la evaluación, interpretación y despliegue de modelos.
Con ADS puede:
Leer conjuntos de datos de Object Storage, Oracle Database (ATP, ADW y On-premises), AWS S3 y otros orígenes en marcos de datos de Pandas.
Ajuste los modelos mediante la optimización de hiperparámetros con el módulo ADSTuner.
Genere informes de evaluación detallados de los candidatos modelo con el módulo ADSEvaluator.
Inicie trabajos de entrenamiento de modelo, procesamiento de datos y ETL distribuidos en Spark mediante Data Flow.
conectarse al BDS desde la sesión de bloc de notas; el cluster creado debe tener activado Kerberos.
Utilice clusters activados para Kerberos para conectarse a Big Data desde una sesión de bloc de notas.
Utilice tipos de funciones para caracterizar datos, crear estadísticas de resumen de significado y trazar. Utilice el sistema de advertencia y validación para probar la calidad de los datos.
Entrene modelos de aprendizaje automático mediante trabajos de Data Science.
Gestione el ciclo de vida de los entornos conda mediante la CLI ads conda.