自律型AIデータベースによるレイクハウスの使用

自律型AIデータベースでレイクハウスを使用するメリットをご紹介します。

自律型AIデータベースを備えたレイクハウスについて
Oracle Autonomous AI Databaseは、あらゆるタイプのデータとワークロードに対応するための汎用性の高いソリューションです。
レイクハウスとは
レイクハウスは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。
自律型AIデータベースの主要なレイクハウスの機能
Oracle Autonomous AI Databaseは、レイクハウスのワークロードをシームレスにサポートし、管理やインストールの必要性を排除するように設計されています。様々なクラウド環境間で様々なデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。

親トピック: 機能

自律型AIデータベースを使用したレイクハウスについて

Oracle Autonomous AI Databaseは、あらゆるタイプのデータとワークロードに対応するための汎用性の高いソリューションです。

Autonomous AI Databaseは、JSON、Graph、Vectorなどの多様なデータ型をサポートしながら、オブジェクト・ストアに匹敵するTBあたりのコスト効率の高いストレージを提供します。自律型AIデータベースにより、企業はデータを単一のプラットフォームに統合できます。Oracle Machine Learning(OML)、Graph、Spatial、Vector、Blockchainなどのコンバージド機能を活用して、データを包括的に管理できます。

すでに他のプラットフォームに既存のレイクハウスがある組織の場合、Oracle Autonomous AI Databaseはシームレスに統合されるため、現在の設定を中断することなく、自律型AIデータベースの高度な機能を活用できます。

詳細は、LiveLabs 「自律型AIレイクハウスによるレイクハウスの構築」をご覧ください。

親トピック: 自律型AIデータベースでのレイクハウスの使用

Lakehouseとは?

レイクハウスは、分析にデータが必要になるまで、膨大な量のRAWデータをネイティブ形式で格納するように設計された一元化されたリポジトリです。

柔軟性と拡張性が高く、組織が構造化、半構造化、非構造化など、さまざまなタイプのデータを格納および処理できるようにすることで、従来のレイクハウスの強力な補完となります。

レイクハウスの主な属性:

オープン・ファイル形式および表形式

レイクハウスは、CSV、Parquet、Icebergなどのテーブル形式などのオープン・ファイル形式でデータを格納します。これにより、複数のエンジンがこれらのデータセットを書き込み、読み取ることができるようになり、データ処理の相互運用性と柔軟性が確保されます。
複数のデータ処理エンジンのサポート

レイクハウスは、Apache Spark、Presto、Hiveなどの様々なデータ処理エンジンと互換性があり、多様な分析ワークロードを可能にします。
Schema-on-Read

レイクハウスでは、スキーマ・オン・リード・アプローチを使用することがよくあります。つまり、事前にスキーマを定義する必要はありません。これにより、データを迅速に取り込むことができ、「今すぐデータを取り込み、後で質問する」オブジェクト・ストアと同様に、データを事前に構造化せずにロードできます。
非構造化データのサポート

構造化データだけでなく、レイクハウスはイメージ(JPG)、ドキュメント(PDF、Word)、その他のバイナリ・データなどの非構造化データを格納し、包括的なストレージ・ソリューションを提供できます。

親トピック: 自律型AIデータベースでのレイクハウスの使用

自律型AIデータベースの主要なレイクハウスの機能

Oracle Autonomous AI Databaseは、レイクハウスのワークロードをシームレスにサポートするように設計されており、管理やインストールが不要になります。様々なクラウド環境間で様々なデータ形式を処理する堅牢な機能を提供し、柔軟で包括的なデータ分析を実現します。

レイクハウス・ワークロードに対応
Oracle Autonomous AI Databaseは、すぐに利用可能なレイクハウス・ワークロードに完全に対応しており、追加のコンポーネントは必要ありません。この準備は、データ変換、メタデータ管理、一般的なレイクハウス・ツールとの統合などの主要なレイクハウスのタスクにまで及び、これらはすべて追加の設定なしで初日から利用できます。
Multi-Cloud Support
すでに他のプラットフォームに既存のレイクハウスがある組織の場合、Autonomous AI Databaseはシームレスに統合されるため、現在の設定を中断することなく、自律型AI Databaseの高度な機能の恩恵を受けることができます。
エンドツーエンドのデータ形式のサポート
Oracle Autonomous AI Databaseは、幅広いデータ形式に対応できる柔軟性を備えた設計で、多様なデータ・ソースとワークロードに対応するユニバーサル・ソリューションとなっています。
機能の強化: 非構造化データ管理のための自律型AIデータベース
Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されていますが、Autonomous AI Databaseは、非構造化データセットを処理するためにその機能を拡張しています。
柔軟なメタデータ管理
Oracle Autonomous AI Databaseは、データセットにメタデータを定義する様々な方法をユーザーに提供し、データ管理の適応性と効率性を高めます。
フェデレーテッド・メタデータのサポート
Autonomous AI Databaseでは、フェデレーテッド・メタデータ・カタログがサポートされており、ユーザーは様々なソースから単一のビューにメタデータを統合できるため、メタデータ管理のための統合インタフェースが提供されます。
コラボレーション
ユーザーが分析を完了した後、多くの場合、他のユーザーと結果を共有する必要があります。Oracle Autonomous AI Databaseは、いくつかのコラボレーション方法を提供することで、共有を容易にします。これにより、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースよりも独自のメリットが得られます。
Oracle Databaseツールとの広範な互換性
Autonomous AI Database環境は、様々なOracleデータベース・ツールと完全に互換性があります。
パフォーマンス
Autonomous AI Databaseには、オブジェクト・ストアに格納されているデータの問合せと、Apache Icebergなどのオープン・テーブル・フォーマットの利用専用に設計された多数の最適化が含まれています。

親トピック: 自律型AIデータベースでのレイクハウスの使用

レイクハウスのワークロードに対応

Oracle Autonomous AI Databaseは、すぐに利用可能なレイクハウスのワークロードに完全に対応しており、追加コンポーネントは不要です。この準備は、データ変換、メタデータ管理、一般的なレイクハウス・ツールとの統合などの主要なレイクハウスのタスクにまで及び、これらはすべて追加の設定なしで初日から利用できます。

この包括的な準備は、自律型AIデータベースを際立たせ、レイクハウスのワークロードのインサイト化を加速する、統合された手間のかからないエクスペリエンスを提供します。つまり、ユーザーは設定や構成を行わずにレイクハウスのタスクの処理をすぐに開始できるため、レイクハウス環境向けの真のプラグアンドプレイ・ソリューションとなります。この組込み機能により、運用が簡素化され、メンテナンス・コストが削減され、より少ないエラーで高い信頼性が保証されます。

Autonomous AI Databaseは、開発者からビジネス・アナリストまで、すべてのユーザー・タイプに対応する一連のツールを提供し、プラットフォームを普遍的かつアクセスできるようにします。

図data-lake-workloads.epsの説明

開発者は、高度な操作、スクリプト作成、自動化のためにPL/SQL APIなどのツールを使用できるため、既存のツールとシームレスに統合し、カスタマイズされたデータベース・ソリューションを効率的に作成できます。詳細は、Autonomous AI Databaseが提供するパッケージ・リファレンスを参照してください。

ビジネス・ユーザーには、データ・インタラクション、探索およびビジュアライゼーションを簡素化するためのWebベースのインタフェースであるData Studioを使用できます。Data Studioを使用すると、技術者以外のユーザーは、インサイトの導出、レポートの作成、効果的なコラボレーションによって、複雑さを軽減し、情報に基づいた意思決定をサポートできます。詳細は、Data Studioの概要ページを参照してください。

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

マルチCloud Support

すでに他のプラットフォームに既存のレイクハウスがある組織の場合、自律型AIデータベースはシームレスに統合されるため、現在の設定を中断することなく、自律型AIデータベースの高度な機能を活用できます。

自律型AIデータベースに接続するために必要な権限とアクセスをレイクハウスに付与することで、自律型AIデータベースへのアクセスをレイクハウスに提供します。必要な資格情報を提供すると、Autonomous AI Databaseは、AWS、Azure、Google Cloud、Oracle OCIオブジェクト・ストアなど、さまざまなクラウド環境のレイクハウスにシームレスに接続できます。

この機能により、各クラウド・プロバイダのネイティブ・セキュリティ機能を活用して、データに安全にアクセスし、管理できます。このマルチクラウド・サポートにより、統合された安全な環境を維持しながら、さまざまなクラウド・プラットフォームにまたがってレイクハウスをデプロイおよび拡張する柔軟性を得ることができます。

Oracle Autonomous AI Databaseは、他のクラウドのネイティブ・セキュリティをサポートしています。詳細は、Amazonリソース名(ARN)を使用したAWSリソースへのアクセス、Azureサービス・プリンシパルを使用したAzureリソースへのアクセスおよびGoogleサービス・アカウントを使用したGoogle Cloud Platformリソースへのアクセスの対応するクラウド・プラットフォームに関する項を参照してください。

図data-lake-multicloud.epsの説明

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

エンドツーエンドのデータ形式のサポート

Oracle Autonomous AI Databaseは、幅広いデータ形式を処理できる柔軟性を備えて設計されており、多様なデータ・ソースおよびワークロードに対応するユニバーサル・ソリューションとなっています。

データが構造化形式、半構造化形式、非構造化形式のいずれであっても、Autonomous AI Databaseは様々なクラウド環境でシームレスにサポートします。これにより、フォーマットの互換性を心配することなく、データの取込み、格納および分析を行うことができます。

自律型AIデータベースは、CSVやJSONなどの従来のフォーマット、およびAVRO、Parquet、ORCなどの高度なフォーマットをネイティブでサポートします。詳細は、自律型AIデータベースを使用した外部データの問合せを参照してください。自律型AIデータベースでは、CSV、JSON、XML、AVRO、ORC、Parquet、Delta Sharing、Iceberg、Word、PDFのファイル形式がサポートされています。

Iceberg Table形式のサポートが追加されたAutonomous AI Databaseは、大規模なレイクハウス環境向けの強化された機能を提供します。Icebergは、最適化された高パフォーマンスのクエリ、より優れたバージョン管理、より簡単なデータ管理を可能にし、大規模で進化するデータセットに適しています。詳細は、Apache Iceberg表の問合せを参照してください。

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

機能強化: 非構造化データ管理のための自律型AIデータベース

Oracle Databaseは、構造化データおよび半構造化データの強力な処理で認識されていますが、Autonomous AI Databaseは、非構造化データセットを処理するためにその機能を拡張しています。

これらの機能には、JPG、PDF、Wordドキュメントなどの幅広い形式の管理と分析が含まれます。これらの進歩により、自律型AIデータベースは、非構造化データ・ソースを処理する企業に包括的なソリューションをもたらします。

取得拡張生成(RAG)によるAI主導のインサイト: Autonomous AI Databaseは、高度なAIモデルを統合し、非構造化データのベクトル検索を可能にします。これにより、AIを使用して大量のデータセットにわたって関連情報を効率的に取得できるため、検索の精度とスピードが向上します。詳細は、取得拡張生成(RAG)を使用したSelect AIを参照してください。
全文索引付け: 自律型AIデータベースでは、非構造化ファイルに対する全文索引の作成がサポートされるため、PDF、Wordファイルなどのドキュメントに対して高度なテキスト検索を実行できます。この機能により、非構造化コンテンツの問合せ、索引付けおよび分析方法が大幅に向上します。オブジェクト・ストレージのファイルでの全文検索の使用を参照してください
非構造化データの解析とロード: 自律型AIデータベースの強化された解析およびデータ取込み機能により、ユーザーは非構造化データをシームレスにロードし、自動的に表形式に変換して、すぐにデータベースにロードできます。詳細は、「イメージからの表抽出の実行」を参照してください。
AI as a Source of Data (Prompt-to-Table): AIを活用することで、自律型AIデータベースは迅速なテーブル機能を実現し、ユーザーがAIモデルから直接データを生成して表にロードできるようにします。これにより、AIによって生成された出力から貴重なインサイトを抽出し、構造化データの新しいソースとして使用できるようになります。AIソースからのデータのロードを参照してください

これらの拡張された機能により、自律型AIデータベースは、構造化されていないデータの需要の高まりに対応するための強力なツールとして位置づけられ、AIを活用したソリューションを活用することで、最新のデータ課題に対応する汎用性と将来性に優れたプラットフォームとなっています。

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

柔軟なメタデータ管理

Oracle Autonomous AI Databaseは、データセットのメタデータを定義するためのさまざまな方法を提供し、データ管理をより適応性と効率よくします。

カタログベースのメタデータ統合
ユーザーは、様々なカタログからメタデータを一元化されたビューに取り込むことができるため、組織全体でのデータの一貫性の制御と維持が容易になります。サポートされているカタログは次のとおりです。
- OCIデータ・カタログ: Oracle Cloud Infrastructure (OCI)内のツールで、ユーザーがデータ・アセットを検出、編成および管理するのに役立ちます。すべてのデータ・アセットを明確に把握できるため、ユーザーはコンプライアンスを維持し、データ品質を確保し、チーム間のコラボレーションを促進できます。詳細は、例: MovieStreamシナリオを参照してください。
- AWS Glue: メタデータを編成および管理するためのデータ・カタログを含む、Amazon Web Servicesからの管理対象ETL (抽出、変換、ロード)サービス。詳細は、「AWS Glueデータ・カタログを使用した外部データの問合せ」を参照してください。
手動メタデータ定義
ユーザーは、Oracle Cloud Infrastructure (OCI) Object StorageやAmazon S3などのオブジェクト・ストア内のデータセットに対して、表レベルでメタデータを直接定義することもできます。これにより、ユーザー要件に合わせて、個々のファイルまたはファイル・グループのデータをカスタマイズして編成できます。自律型AIデータベースは、列名やデータ型などのメタデータを自動的に推測して、時間を節約し、エラーを削減することもできます。たとえば、CSVファイルのアップロード時に、ヘッダーを列名として自動的に検出し、コンテンツに基づいて数値やvarchar2などの適切なデータ型を割り当てることができます。これにより、ユーザーは手作業なしでデータを分析用に迅速に準備できるため、設定時間を短縮し、エラーの可能性を最小限に抑えることができます。

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

フェデレーテッド・メタデータのサポート

自律型AIデータベースでは、フェデレーテッド・メタデータ・カタログがサポートされるため、ユーザーは様々なソースから1つのビューにメタデータを統合でき、メタデータ管理のための統合インタフェースが提供されます。

このアプローチでは、複数のクラウドおよびプラットフォーム間でデータ・ソースを接続することで、様々な環境でのメタデータ管理を簡素化します。カタログベースのメタデータを使用するか、手動で定義するかに関係なく、すべての情報を統合カタログで使用して、簡単に参照できます。たとえば、組織はこのフェデレーテッド・ビューを使用して、AWSとOracle Cloudの両方のデータ・アセットを管理し、プラットフォーム全体で一貫したガバナンスと発見性を確保できます。

図data-lake-uni-dcat.epsの説明

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

Collaboration

ユーザーは分析を終了した後、多くの場合、他のユーザーと結果を共有する必要があります。Oracle Autonomous AI Databaseは、いくつかのコラボレーション方法を提供することで、共有を容易にします。これにより、統合セキュリティ機能、オープン・プロトコル、シームレスなクラウド接続など、他のデータベースよりも独自のメリットが得られます。

これらのオプションは柔軟性と安全性を確保するため、異なるコラボレーション・ニーズに適合します。

デルタ共有プロトコル: これにより、デルタ共有と呼ばれるオープン・プロトコルを使用して、Oracleの外部でデータを共有できます。複雑な統合を必要とせずに、外部パートナーとの安全なデータ共有をサポートし、クロスクラウドおよびクロスプラットフォーム分析に最適です。このようにして、Oracleの一部ではない様々な分析ツールでデータをスムーズに使用できます。詳細は、オブジェクト・ストレージを使用したデータ・バージョンの共有を参照してください。
クラウド・リンク: セキュアなクラウド・リンクを使用して、異なるAutonomous AI Databaseインスタンス間でデータを共有できます。たとえば、クラウド・リンクは、異なるデータベースの接続に特に有効です。これにより、一貫したデータ可用性が確保され、複数のデータベースにわたるデータへの迅速かつ信頼性の高いアクセスを必要とするアプリケーションのレイテンシが軽減されます。コピーや複製は必要ありません。広がり、連携が必要なチームのコラボレーションを円滑に維持します。「直接接続を使用したライブ・データの共有」を参照してください
表のハイパーリンク: 個別のログインを必要とせずにデータへのアクセス権を付与する特別なURLを作成することで、データを直接共有できます。ユーザーは、これらのURLの権限を制御し、有効期限を設定できるため、安全で柔軟な共有オプションを確保できます。この機能は、RESTクライアント専用に構築されています。詳細は、表またはビューの表ハイパーリンクの作成を参照してください。

図data-lake-data-share.epsの説明

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

Oracle Databaseツールとの幅広い互換性

Autonomous AI Database環境は、さまざまなOracleデータベース・ツールと完全に互換性があります。

データ視覚化、分析、ETL、管理など、Oracleデータベースとのやり取りにすでに使用しているあらゆるツールも、シームレスに活用してAutonomous AI Database内のデータセットを分析できます。この互換性により、スムーズなエクスペリエンスが確保されるため、ユーザーは新しいツールやプロセスを導入することなく、自律型AIデータベースを既存のワークフローに統合できるため、効率を最大化し、学習曲線を削減できます。

Oracleデータベースで使用できるいくつかのツールの詳細は、Data Studioの「概要」ページを参照してください。

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

パフォーマンス

自律型AIデータベースには、オブジェクト・ストアに格納されているデータのクエリや、Apache Icebergなどのオープン・テーブル・フォーマットの利用に特化した多数の最適化が含まれています。

データ・レイク・アクセラレータ

Data Lake Acceleratorは、フィルタリング、予測、解凍などの集中的なスキャン操作をAutonomous AI Databaseから専用のコンピュート・リソース・プールにオフロードすることで、クエリ・パフォーマンスを大幅に向上させる動的なスケールアウト・サービスです。このサービスは、問合せの実行中のみECPUを動的にプロビジョニングおよび追加するため、ソースで直接データ処理をパラレル化することで、データベースにデータをロードする必要なく、大規模なスキャンをより高速に完了できます。問合せが完了すると、割り当てられたリソースが自動的に解放され、効率的な消費ベースの使用が保証されます。詳細は、データ・レイク・アクセラレータを参照してください。

外部表キャッシュ

外部表キャッシュを使用すると、アクセス頻度の高い外部データをローカルに格納できます。キャッシュを使用すると、外部表に対する問合せでAutonomous AI Database内からデータを直接取得できるため、非常に高速になります。このキャッシュ・メカニズムはアプリケーションに対して完全に透過的であるため、アクセスを高速化するために既存のSQL文またはワークフローを変更する必要はありません。Parquet表、ORC表、AVRO表、CSV表およびIceberg表に作成されたパーティション表および非パーティション表の外部表キャッシュを作成できます。詳細は、外部表キャッシュを使用した外部表のパフォーマンスの向上を参照してください。

暗黙的なパーティション化

Autonomous AI Databaseの暗黙的パーティション化では、オブジェクト・ストア・パス('.../country=US/year=2024/month=01/'など)内の共通フォルダおよびファイル・ネーミング・パターンが自動的に認識されます。データベースでは、これらの命名規則がパーティション・キーとして扱われ、問合せフィルタに関係のないファイルおよびフォルダをスキップできます。これにより、表DDLでパーティションを手動で定義したり、既存のディレクトリ構造を変更する必要なく、パーティション・プルーニングの利点が得られます。その結果、特に大規模なデータセットを操作する場合、問合せはオブジェクト・ストアから少ないデータをスキャンし、より高速な結果を提供します。詳細は、「暗黙的パーティション化を使用した外部表の問合せ」を参照してください。

適切な機能の選択

機能	ユースケース	データ容量
外部表キャッシュ	繰返しダッシュボード、対話型ダッシュボードまたはスケジュール済ダッシュボードを利用します。	中(GBから低TB)
データ・レイク・アクセラレータ	大規模なデータに対する大量スキャンまたはアドホック・スキャンを活用します。	非常に大きい(TBからPB)
暗黙的なパーティション化	オブジェクト・ストア内のフォルダまたはファイル・ネーミング・パターン(日付、リージョン、その他の属性など)別に編成された大規模なデータセットを問合せまたは分析する場合に利用します。	中から大(GBからTB)
ハイブリッド	頻繁にアクセスされる(ホットな)データ・サブセットをキャッシュする外部表キャッシュと、完全な履歴データを問い合せるデータ・レイク・アクセラレータ。	全ボリューム

親トピック: 自律型AIデータベースの主要なレイクハウスの機能

Oracle Cloud Infrastructureドキュメント

自律型AIデータベースによるレイクハウスの使用

自律型AIデータベースを使用したレイクハウスについて

Lakehouseとは?

自律型AIデータベースの主要なレイクハウスの機能

レイクハウスのワークロードに対応

マルチCloud Support

エンドツーエンドのデータ形式のサポート

機能強化: 非構造化データ管理のための自律型AIデータベース

柔軟なメタデータ管理

フェデレーテッド・メタデータのサポート

Collaboration

Oracle Databaseツールとの幅広い互換性

パフォーマンス