Uso de Data Lake con base de datos de IA autónoma
Descubre las ventajas de utilizar Data Lake con Autonomous AI Database.
- Acerca de Data Lake con base de datos de IA autónoma
Oracle Autonomous AI Database es una solución versátil para acomodar cualquier tipo de datos y carga de trabajo. - ¿Qué es un data lake?
Los lagos de datos son repositorios centralizados diseñados para almacenar grandes cantidades de datos sin procesar en su formato nativo hasta que se necesiten los datos para el análisis. - Funciones clave del lago de datos de la base de datos de IA autónoma
Oracle Autonomous AI Database está diseñado para soportar sin problemas las cargas de trabajo del lago de datos, eliminando la necesidad de gestión o instalación. Ofrece capacidades sólidas para manejar varios formatos de datos en diferentes entornos en la nube, lo que garantiza un análisis de datos flexible y completo.
Tema principal: Funciones
Acerca de Data Lake con base de datos de IA autónoma
Oracle Autonomous AI Database es una solución versátil para alojar cualquier tipo de datos y carga de trabajo.
Autonomous AI Database proporciona un almacenamiento rentable, con un costo por TB comparable a los almacenes de objetos, al tiempo que admite diversos tipos de datos como JSON, Graph y Vector. Con Autonomous AI Database, las empresas pueden consolidar sus datos en una única plataforma. Pueden aprovechar las capacidades convergentes, como Oracle Machine Learning (OML), Graph, Spatial, Vector y Blockchain, para gestionar sus datos de forma integral.
Para las organizaciones que ya tienen data lakes existentes en otras plataformas, Oracle Autonomous AI Database se integra a la perfección, lo que permite a las empresas beneficiarse de las funciones avanzadas de Autonomous AI Database sin interrumpir sus configuraciones actuales.
Para obtener más información, prueba el LiveLabs título para crear un lago de datos con Oracle Autonomous AI Lakehouse.
Tema principal: Uso de Data Lake con una base de datos de IA autónoma
¿Qué es un data lake?
Los lagos de datos son repositorios centralizados diseñados para almacenar grandes cantidades de datos sin procesar en su formato nativo hasta que los datos sean necesarios para el análisis.
Son altamente flexibles y escalables, lo que los convierte en un poderoso complemento de los lakehouses tradicionales al permitir que las organizaciones almacenen y procesen varios tipos de datos, incluidos datos estructurados, semiestructurados y no estructurados.
-
Abrir formatos de archivo y tabla
Los lagos de datos almacenan datos en formatos de archivo abiertos, como CSV, Parquet y formatos de tabla como Iceberg. Esto garantiza la interoperabilidad y flexibilidad en el procesamiento de datos al permitir que varios motores escriban y lean estos conjuntos de datos.
-
Soporte para varios motores de procesamiento de datos
Los lagos de datos son compatibles con varios motores de procesamiento de datos, como Apache Spark, Presto y Hive, lo que permite diversas cargas de trabajo analíticas.
-
Esquema en lectura
Los lagos de datos suelen utilizar un enfoque de esquema en lectura, lo que significa que no es necesario definir un esquema por adelantado. Esto permite una rápida ingestión de datos, donde los datos se pueden cargar sin estructuración previa, al igual que los almacenes de objetos que "capturan datos ahora y hacen preguntas más tarde".
-
Soporte para datos no estructurados
Más allá de los datos estructurados, los lagos de datos pueden almacenar datos no estructurados como imágenes (JPG), documentos (PDF, Word) y otros datos binarios, ofreciendo una solución de almacenamiento integral.
Tema principal: Uso de Data Lake con una base de datos de IA autónoma
Funciones clave del lago de datos para la base de datos de IA autónoma
Oracle Autonomous AI Database está diseñado para soportar sin problemas las cargas de trabajo del lago de datos, eliminando la necesidad de gestión o instalación. Ofrece capacidades sólidas para manejar varios formatos de datos en diferentes entornos en la nube, lo que garantiza un análisis de datos flexible y completo.
- Listo para cargas de trabajo de lago de datos
Oracle Autonomous AI Database está totalmente listo para cargas de trabajo de lago de datos listas para usar, sin necesidad de componentes adicionales. Esta preparación se extiende a tareas clave de lagos de datos, como la transformación de datos, la gestión de metadatos y la integración con herramientas populares de lagos de datos, todo ello disponible desde el primer día sin configuración adicional. - Multi-Cloud Support
Para las organizaciones que ya tienen lagos de datos existentes en otras plataformas, Autonomous AI Database se integra a la perfección, lo que permite a las empresas beneficiarse de las funciones avanzadas de Autonomous AI Database sin interrumpir sus configuraciones actuales. - Soporte integral de formatos de datos
Oracle Autonomous AI Database está diseñado con la flexibilidad necesaria para manejar una amplia gama de formatos de datos, lo que lo convierte en una solución universal para diversas fuentes de datos y cargas de trabajo. - Capacidades mejoradas: base de datos de IA autónoma para la gestión de datos no estructurados
Aunque Oracle Database es reconocida por su potente procesamiento de datos estructurados y semiestructurados, Autonomous AI Database amplía sus capacidades para manejar también conjuntos de datos no estructurados. - Gestión de metadatos flexible
Oracle Autonomous AI Database proporciona a los usuarios varias formas de definir metadatos para sus juegos de datos, lo que hace que la gestión de datos sea más adaptable y eficiente. - Soporte de metadatos federados
La base de datos de IA autónoma soporta un catálogo de metadatos federado, lo que permite a los usuarios unificar metadatos de diferentes orígenes en una única vista, proporcionando una interfaz unificada para la gestión de metadatos. - Colaboración
Una vez que los usuarios terminan su análisis, a menudo necesitan compartir sus resultados con otros. Oracle Autonomous AI Database facilita el uso compartido al ofrecer varias formas de colaborar, lo que proporciona ventajas únicas sobre otras bases de datos, como funciones de seguridad integradas, protocolos abiertos y conectividad en la nube perfecta. - Amplia compatibilidad con las herramientas de Oracle Database
El entorno de Autonomous AI Database es totalmente compatible con una amplia gama de herramientas de bases de datos de Oracle.
Tema principal: Uso de Data Lake con una base de datos de IA autónoma
Listo para cargas de trabajo de lago de datos
Oracle Autonomous AI Database está totalmente listo para cargas de trabajo de lago de datos listas para usar, sin necesidad de componentes adicionales. Esta preparación se extiende a tareas clave de lagos de datos, como la transformación de datos, la gestión de metadatos y la integración con herramientas populares de lagos de datos, todo ello disponible desde el primer día sin configuración adicional.
Esta preparación integral es lo que hace que la base de datos de IA autónoma se destaque, ofreciendo una experiencia integrada y sin complicaciones que acelera el tiempo de información para las cargas de trabajo de data lake. Esto significa que los usuarios pueden comenzar inmediatamente a manejar tareas de data lake sin ninguna configuración, lo que la convierte en una verdadera solución plug-and-play para entornos de data lake. Esta capacidad integrada simplifica las operaciones, reduce los costos de mantenimiento y garantiza una mayor fiabilidad con menos errores.
Autonomous AI Database proporciona un conjunto de herramientas para todos los tipos de usuarios, desde desarrolladores hasta analistas empresariales, lo que hace que la plataforma sea universal y accesible.
Los desarrolladores pueden utilizar herramientas como la API PL/SQL para operaciones avanzadas, scripts y automatización, lo que permite una integración perfecta con las herramientas existentes y la creación de soluciones de base de datos personalizadas de manera eficiente. Consulte Referencia de paquetes proporcionados de base de datos de IA autónoma para obtener más información.
Para los usuarios profesionales, se puede utilizar Data Studio, una interfaz basada en web para simplificar la interacción, la exploración y la visualización de datos. Data Studio permite a los usuarios no técnicos obtener información, crear informes y colaborar de manera efectiva, reduciendo la complejidad y apoyando la toma de decisiones informadas. Consulte Página Visión General de Data Studio para obtener más información.
Multi-Cloud Support
Para las organizaciones que ya tienen lagos de datos existentes en otras plataformas, Autonomous AI Database se integra a la perfección, lo que permite a las empresas beneficiarse de las funciones avanzadas de Autonomous AI Database sin interrumpir sus configuraciones actuales.
Proporciona acceso a la base de datos de IA autónoma a tu lago de datos otorgando los privilegios y el acceso necesarios para que tu lago de datos se conecte a la base de datos de IA autónoma. Una vez que haya proporcionado las credenciales necesarias, Autonomous AI Database puede conectarse fácilmente a lagos de datos en varios entornos en la nube, incluidos AWS, Azure, Google Cloud y el almacén de objetos de Oracle OCI.
Esta capacidad le permite acceder y gestionar de forma segura sus datos, aprovechando las funciones de seguridad nativas de cada proveedor en la nube. Con este soporte multinube, obtienes la flexibilidad de desplegar y escalar tu lago de datos en diferentes plataformas en la nube mientras mantienes un entorno unificado y seguro.
Oracle Autonomous AI Database admite seguridad nativa para otras nubes. Para obtener más información, consulte Uso de nombres de recursos de Amazon (ARN) para acceder a recursos de AWS, Uso de principal de servicio de Azure para acceder a recursos de Azure y Uso de la cuenta de servicio de Google para acceder a recursos de plataforma de Google Cloud para su plataforma en la nube correspondiente.
Soporte integral de formatos de datos
Oracle Autonomous AI Database está diseñado con la flexibilidad de gestionar una amplia gama de formatos de datos, lo que lo convierte en una solución universal para diversas fuentes de datos y cargas de trabajo.
Tanto si tus datos residen en formatos estructurados, semiestructurados o no estructurados, la base de datos de IA autónoma los admite perfectamente en varios entornos en la nube. Esto permite a las empresas ingerir, almacenar y analizar datos sin preocuparse por la compatibilidad del formato.
Autonomous AI Database proporciona soporte nativo para formatos tradicionales como CSV y JSON, así como formatos avanzados como AVRO, Parquet y ORC. Consulte Consulta de datos externos con base de datos de IA autónoma para obtener más información. Autonomous AI Database admite los siguientes formatos de archivo: CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word y PDF.
Con el soporte adicional para el formato Iceberg Table, Autonomous AI Database ofrece capacidades mejoradas para entornos de lago de datos a gran escala. Iceberg permite realizar consultas optimizadas y de alto rendimiento, un mejor control de versiones y una gestión de datos más sencilla, lo que lo convierte en un buen ajuste para conjuntos de datos grandes y en evolución. Consulte Consulta de tablas Apache Iceberg para obtener más información.
Capacidades mejoradas: base de datos de IA autónoma para la gestión de datos no estructurados
Aunque Oracle Database es reconocida por su potente procesamiento de datos estructurados y semiestructurados, Autonomous AI Database amplía sus capacidades para manejar también conjuntos de datos no estructurados.
- Estadísticas basadas en IA con generación aumentada de recuperación (RAG): Autonomous AI Database integra modelos de IA avanzados, lo que permite la búsqueda vectorial de datos no estructurados. Esto permite la recuperación eficiente de información relevante en conjuntos de datos masivos mediante IA, lo que mejora la precisión y la velocidad de búsqueda. Consulte Seleccionar AI con generación aumentada de recuperación (RAG) para obtener más información.
- Indexación de texto completo: la base de datos de IA autónoma soporta la creación de índices de texto completo en archivos no estructurados, lo que permite realizar búsquedas de texto avanzadas en documentos como archivos PDF, archivos de Word y mucho más. Esta capacidad mejora considerablemente la forma en que se puede consultar, indexar y analizar el contenido no estructurado. Consulte Uso de la búsqueda de texto completo en archivos de Object Storage
- Analizar y cargar datos no estructurados: las funciones mejoradas de análisis e ingesta de datos de Autonomous AI Database permiten a los usuarios cargar datos no estructurados sin problemas, transformándolos automáticamente en un formato tabular y listos para cargarlos en la base de datos. Consulte Realizar extracción de tablas a partir de imágenes para obtener más información.
- IA como origen de datos (petición de datos a tabla): al aprovechar la IA, la base de datos de IA autónoma permite la funcionalidad de petición de datos a tabla, lo que permite a los usuarios generar datos directamente desde modelos de IA y cargarlos en tablas. Esto abre las posibilidades de extraer información valiosa de los resultados generados por la IA y utilizarlos como una nueva fuente de datos estructurados. Consulte Carga de datos desde el origen de AI
Estas capacidades ampliadas posicionan a la base de datos de IA autónoma como una poderosa herramienta para manejar las crecientes demandas de datos no estructurados, al tiempo que aprovechan las soluciones basadas en IA, lo que la convierte en una plataforma versátil y preparada para el futuro para los desafíos de los datos modernos.
Gestión flexible de metadatos
Oracle Autonomous AI Database proporciona a los usuarios varias formas de definir metadatos para sus conjuntos de datos, lo que hace que la gestión de datos sea más adaptable y eficiente.
- Integración de metadatos basada en catálogos
Los usuarios pueden incorporar metadatos de varios catálogos a una vista centralizada, lo que facilita el control y el mantenimiento de la coherencia de los datos en toda la organización. Los catálogos soportados incluyen:
-
OCI Data Catalog: herramienta de Oracle Cloud Infrastructure (OCI) que ayuda a los usuarios a detectar, organizar y gestionar activos de datos. Ofrece una visión clara de todos los activos de datos, lo que ayuda a los usuarios a mantener el cumplimiento, garantizar la calidad de los datos y facilitar la colaboración entre equipos. Consulte Ejemplo: escenario MovieStream para obtener más información.
-
AWS Glue: servicio ETL gestionado (extraer, transformar, cargar) de Amazon Web Services que incluye un catálogo de datos para organizar y gestionar metadatos. Consulte Consulta de datos externos con AWS Glue Data Catalog para obtener más información.
-
- Definición manual de metadatos
Los usuarios también pueden definir metadatos directamente en el nivel de tabla para juegos de datos en almacenes de objetos como Oracle Cloud Infrastructure (OCI) Object Storage o Amazon S3. Esto permite una organización personalizada de los datos para archivos individuales o grupos de archivos, adaptados a los requisitos del usuario. La base de datos de IA autónoma también puede inferir metadatos automáticamente, como nombres de columna y tipos de datos, para ahorrar tiempo y reducir errores. Por ejemplo, al cargar un archivo CSV, el sistema puede detectar automáticamente cabeceras como nombres de columna y asignar tipos de dato adecuados, como número o varchar2, según el contenido. Esto ayuda a los usuarios a preparar rápidamente sus datos para el análisis sin intervención manual, lo que reduce el tiempo de configuración y minimiza las posibilidades de errores.
Soporte de Metadatos Federados
Autonomous AI Database soporta un catálogo de metadatos federado, lo que permite a los usuarios unificar metadatos de diferentes orígenes en una única vista, proporcionando una interfaz unificada para la gestión de metadatos.
Este enfoque simplifica la gestión de metadatos en varios entornos al conectar orígenes de datos en varias nubes y plataformas. Tanto si se utilizan metadatos basados en catálogos como si se definen manualmente, toda la información está disponible en un catálogo unificado para facilitar la exploración. Por ejemplo, una organización puede utilizar esta vista federada para gestionar activos de datos tanto de AWS como de Oracle Cloud, lo que garantiza una gobernanza y una capacidad de detección coherentes en todas las plataformas.
Colaboración
Después de que los usuarios terminan su análisis, a menudo necesitan compartir sus resultados con otros. Oracle Autonomous AI Database facilita el uso compartido al ofrecer varias formas de colaborar, lo que proporciona ventajas únicas sobre otras bases de datos, como funciones de seguridad integradas, protocolos abiertos y conectividad en la nube perfecta.
Estas opciones están hechas para ser flexibles y seguras, por lo que se adaptan a las diferentes necesidades de colaboración:
-
Protocolo de uso compartido delta: permite compartir datos fuera de Oracle mediante un protocolo abierto denominado Delta Sharing. Admite el uso compartido seguro de datos con partners externos, sin necesidad de una integración compleja, lo que lo hace ideal para análisis entre nubes y entre plataformas. De esta manera, los datos se pueden utilizar sin problemas en diferentes herramientas de análisis que no forman parte de Oracle. Consulte Uso compartido de versiones de datos con Object Storage para obtener más información.
-
Enlaces a la nube: puede compartir datos entre diferentes instancias de base de datos de IA autónoma mediante enlaces seguros en la nube. Por ejemplo, los enlaces en la nube son particularmente eficaces para conectar diferentes bases de datos. Esto garantiza una disponibilidad de datos coherente y reduce la latencia de las aplicaciones que necesitan un acceso rápido y fiable a los datos en varias bases de datos, sin necesidad de copiar ni duplicar. Mantiene la colaboración sin problemas para los equipos que se extienden y necesitan trabajar juntos. Consulte Compartir datos activos mediante una conexión directa
-
Hiperenlaces de tabla: puede compartir datos directamente mediante la creación de URL especiales que proporcionen acceso a los datos sin necesidad de un inicio de sesión independiente. Los usuarios pueden controlar los permisos y definir tiempos de caducidad para estas URL, lo que garantiza opciones de uso compartido seguras y flexibles. Esta función se ha creado específicamente para clientes REST. Consulte Creación de un hiperenlace de tabla para una tabla o una vista para obtener más información.
Amplia compatibilidad con Oracle Database Tools
El entorno de Autonomous AI Database es totalmente compatible con una amplia gama de herramientas de bases de datos de Oracle.
Cualquier herramienta que ya utilice para interactuar con bases de datos Oracle, ya sea para visualización de datos, análisis, ETL o administración, también se puede aprovechar sin problemas para analizar conjuntos de datos dentro de Autonomous AI Database. Esta compatibilidad garantiza una experiencia fluida, lo que permite a los usuarios integrar la base de datos de IA autónoma en sus flujos de trabajo existentes sin necesidad de adoptar nuevas herramientas o procesos, maximizando así la eficiencia y reduciendo la curva de aprendizaje.
Consulte Página Visión General de Data Studio para obtener información sobre algunas de las herramientas disponibles para utilizarlas con bases de datos Oracle.