Uso de sesiones de bloc de notas para crear y entrenar modelos
Después de crear una sesión de bloc de notas, puede escribir y ejecutar código Python con las bibliotecas de aprendizaje automático en la interfaz JupyterLab para crear y entrenar modelos.
Autenticación a las API de OCI desde una sesión de bloc de notas
Al trabajar en una sesión de bloc de notas, está operando como usuario de Linux datascience
. Este usuario no tiene una identidad de OCI Identity and Access Management (IAM), por lo que no tiene acceso a la API de OCI. Los recursos de OCI incluyen proyectos y modelos de Data Science y los recursos de otros servicios de OCI, como Object Storage, Functions, Vault, Data Flow, etc. Para acceder a estos recursos desde el entorno del bloc de notas, utilice uno de los dos métodos de autenticación:
(Recomendado) Autenticación mediante la entidad de recurso de una sesión de bloc de notas
Una entidad de recurso es una función de IAM que permite que los recursos sean actores autorizados o principales para realizar acciones en los recursos de servicio. Cada recurso tiene su propia identidad y se autentica con los certificados que tiene agregados. Estos certificados se crean automáticamente, se asignan a recursos y se rotan, lo que evita la necesidad de almacenar credenciales en una sesión de un portátil.
El servicio Data Science le permite autenticarse mediante una entidad de recurso de una sesión de Notebook para acceder a otros recursos de OCI. Los principales de recurso proporcionan una forma más segura de autenticarse en los recursos en comparación con la configuración de OCI y el método de clave de API
Un administrador de arrendamiento debe escribir políticas para otorgar permisos a una entidad de recurso para acceder a otros recursos de OCI. Consulte Uso de Oracle Resource Manager para configurar su arrendamiento para Data Science.
Puede autenticarse con principales de recurso en una sesión de bloc de notas mediante las siguientes interfaces:
- SDK de Oracle Accelerated Data Science:
-
Ejecute lo siguiente en una celda del bloc de notas:
import ads ads.set_auth(auth='resource_principal')
Para obtener más información, consulte Documentación sobre Accelerated Data Science .
- SDK de Python de OCI:
-
Ejecute lo siguiente en una celda del bloc de notas.
import oci from oci.data_science import DataScienceClient rps = oci.auth.signers.get_resource_principals_signer() dsc = DataScienceClient(config={}, signer=rps)
- CLI de OCI:
-
Utilice el indicador
`--auth=resource_principal`
con comandos.
El token de la entidad de recurso se almacena en caché durante 15 minutos. Si cambia la política o el grupo dinámico, debe esperar 15 minutos para ver el efecto de los cambios.
Si no utiliza explícitamente los principales de recurso al llamar a un SDK o una CLI, se utilizará el archivo de configuración y el método de clave de API
(Valor por defecto) Autenticación mediante el archivo de configuración de OCI y las claves de API
Puede operar como su propio usuario de IAM configurando un archivo de configuración de OCI y claves de API para acceder a los recursos de OCI. Este es el método de autenticación por defecto
Para autenticarse mediante el método de archivo de configuración y clave de API, debe cargar un archivo de configuración de OCI en el directorio /home/datascience/.oci/
de la sesión de bloc de notas. Para el perfil relevante definido en el archivo de configuración de OCI, también debe cargar o crear los archivos .pem
necesarios.
Configure el archivo de configuración de OCI y la clave de API mediante Claves y OCID necesarios.
Cómo trabajar con archivos de código existente
Puede crear nuevos archivos o trabajar con sus propios archivos existentes.
Los archivos se pueden cargar desde la máquina local seleccionando Cargar en la interfaz JupyterLab o arrastrando y borrando archivos.
Puede ejecutar los comandos sftp
, scp
, curl
, wget
o rsync
para extraer archivos en el entorno de sesión de bloc de notas según las limitaciones de red impuestas por la selección de VCN y subred.
Instalación de bibliotecas Python adicionales
Puede instalar una biblioteca que no esté preinstalada en la imagen de sesión de bloc de notas. Puede instalar y cambiar un entorno conda predefinido o crear un entorno conda desde cero.
Para obtener más información, consulte la sección sobre instalación de bibliotecas adicionales en la documentación de ADS.
Uso de las variables de entorno proporcionadas en las sesiones del bloc de notas
Al iniciar una sesión de bloc de notas, el servicio crea variables de entorno útiles que se pueden utilizar en el código:
Nombre de clave de variable |
Descripción |
Especificado por |
---|---|---|
|
OCID del arrendamiento al que pertenece el bloc de notas. |
Se rellena automáticamente con Data Science. |
|
OCID del proyecto asociado a la sesión de bloc de notas actual. |
Se rellena automáticamente con Data Science. |
|
OCID del compartimento del proyecto al que está asociado el bloc de notas. |
Se rellena automáticamente con Data Science. |
|
OCID de usuario. |
Se rellena automáticamente con Data Science. |
|
OCID de la sesión de bloc de notas actual. |
Se rellena automáticamente con Data Science. |
|
OCID de compartimento de la sesión de bloc de notas actual. |
Se rellena automáticamente con Data Science. |
|
Ruta al token de entidad de recurso de OCI. |
Se rellena automáticamente con Data Science. |
|
ID del token de entidad de recurso de OCI. |
Se rellena automáticamente con Data Science. |
|
URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al crear. |
Especificado por el Usuario. |
|
URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al activar. |
Especificado por el Usuario. |
|
URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al desactivar. |
Especificado por el Usuario. |
|
URL de script de ciclo de vida de sesión de bloc de notas que se va a ejecutar al suprimir. |
Especificado por el Usuario. |
|
Espacio de nombres de Object Storage para logs de salida de script de ciclo de vida de bloc de notas. |
Especificado por el Usuario. |
|
Cubo de Object Storage para logs de salida de script de ciclo de vida de bloc de notas. |
Especificado por el Usuario. |
|
Desactive la descarga de archivos del cliente JupyterLab y la API de descarga JupyterLab, definida en True para desactivar la funcionalidad de descarga. |
Especificado por el Usuario. |
SHM_SIZE |
Espacio de memoria compartida, introduzca el tamaño de memoria seguido de las unidades: g para GB, m para MB y b para bytes. Por ejemplo, introduzca 128g para 128 GB de espacio de memoria compartida. | Especificado por el Usuario. |
Para acceder a estas variables de entorno en la sesión de bloc de notas, utilice la biblioteca os
de Python. Por ejemplo:
import os
project_ocid = os.environ['PROJECT_OCID']
print(project_ocid)
Los valores
NB_SESSION_COMPARTMENT_OCID
y PROJECT_COMPARTMENT_OCID
no se actualizan en una sesión de Notebook en ejecución si los recursos se han movido de compartimentos una vez creada la sesión de Notebook.Uso de variables de entorno personalizadas
Utilice sus propias variables de entorno personalizadas en sesiones de bloc de notas.
Después de definir las variables de entorno personalizadas, acceda a estas variables de entorno en una sesión de Notebook con la biblioteca os
de Python. Por ejemplo, si define un par de valores de clave con la clave MY_CUSTOM_VAR1
y el valor VALUE-1
, al ejecutar el siguiente código, obtendrá VALUE-1
.
import os
my_custom_var1 = os.environ['MY_CUSTOM_VAR1']
print(my_custom_var1)
El sistema no permite sobrescribir las variables de entorno proporcionadas por el sistema con las personalizadas. Por ejemplo, no puede asignar un nombre a una variable personalizada,
USER_OCID
. Uso del SDK de Oracle Accelerated Data Science
El SDK de Oracle Accelerated Data Science (ADS) acelera las actividades comunes de ciencia de datos al proporcionar herramientas que automatizan y simplifican las tareas comunes de ciencia de datos. Proporciona a los científicos de datos una interfaz de Python fácil de usar para los servicios de OCI, incluidos Data Science, como trabajos, Big Data, Data Flow, Object Storage, Streaming y Vault, y para Oracle Database. ADS le proporciona una interfaz para gestionar el ciclo de vida de los modelos de aprendizaje automático, desde la adquisición de datos hasta la evaluación, interpretación y despliegue de modelos.
Con ADS puede:
- Lea conjuntos de datos de Object Storage, Oracle Database (ATP, ADW y on-premises), AWS S3 y otros orígenes en marcos de datos de Pandas.
- Ajuste modelos mediante la optimización de hiperparámetros con el módulo
ADSTuner
. - Genere informes de evaluación detallados de los candidatos modelo con el módulo
ADSEvaluator
. - Guarde los modelos de aprendizaje automático en el catálogo de modelos de Data Science.
- Despliegue modelos como solicitudes HTTP con el despliegue de modelos.
- Inicie trabajos distribuidos de ETL, procesamiento de datos y entrenamiento de modelos en Spark mediante Data Flow.
-
conectarse al BDS desde la sesión de bloc de notas, el cluster creado debe tener Kerberos activado.
Utilice clusters activados para Kerberos para conectarse a Big Data desde una sesión de bloc de notas.
- Utilice tipos de funciones para caracterizar datos, crear estadísticas de resumen de significados y trazar. Utilice el sistema de advertencia y validación para probar la calidad de los datos.
- Entrene modelos de aprendizaje automático con Trabajos de Data Science.
- Gestione el ciclo de vida de los entornos conda mediante la CLI
ads conda
.