データ・サイエンスの概要

Oracle Cloud Infrastructure (OCI) Data Scienceは、データ・サイエンス・チームが機械学習モデルの作成、トレーニングおよび管理を行うための完全に管理されたサーバーレスのプラットフォームです。

データ・サイエンス・サービス:

  • 共同のプロジェクト駆動型ワークスペースをデータ・サイエンティストに提供します。

  • データ・サイエンス・ワークロードのインフラストラクチャへのセルフサービス・サーバーレス・アクセスを可能にします。

  • オープン・ソース・コミュニティによって開発されたPython中心のツール、ライブラリおよびパッケージと、予測モデルのエンドツーエンドのライフサイクルをサポートするOracle Accelerated Data Scienceライブラリが含まれます:

    • データの取得、プロファイリング、準備およびビジュアライゼーション。

    • 特徴エンジニアリング。

    • モデル・トレーニング(Oracle AutoMLを含む)。

    • モデルの評価、説明および解釈(Oracle MLXを含む)。

  • ファンクション、データ・フロー、Autonomous Data Warehouseおよびオブジェクト・ストレージを含む残りのOracle Cloud Infrastructureスタックと統合します。

  • モデルをWebアプリケーション(HTTP APIエンドポイント)としてデプロイするためのリソースであるモデル・デプロイメント。

  • データ・サイエンス・ジョブにより、フル・マネージド・インフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

  • パイプラインを使用すると、エンドツーエンドの機械学習ワークフローを実行できます。

  • コンパートメントおよびリソースへのアクセスを制御するポリシーおよびボールトが含まれます。

  • データ・サイエンス・リソースのヘルス、可用性、パフォーマンスおよび使用状況に関するインサイトを提供するメトリックが含まれます。
  • データ・サイエンティストが方法およびドメインの専門知識に集中して本番環境にモデルを提供するのに役立ちます。

ヒント

A Data Scientist's Guide to OCIを使用して開始できます。

データ・サイエンスの概念

データ・サイエンスを開始する際に役立つ次の概念および用語を確認します。

アクセラレーテッド・データ・サイエンスSDK

Oracle Accelerated Data Science (ADS) SDKは、OCI Data Scienceサービスの一部として含まれるPythonライブラリです。ADSには、データへの接続、データの探索とビジュアル化、AutoMLを使用したモデルのトレーニング、モデルの評価、モデルの説明など、データ・サイエンス・ワークフローのステップを自動化または単純化するファンクションとオブジェクトが多数あります。また、ADSは、データ・サイエンス・サービスのモデル・カタログやその他のOCIサービス(オブジェクト・ストレージを含む)にアクセスするためのインタフェースを提供しています。ADSについて理解するには、高速化データ・サイエンス・ライブラリを参照してください。

プロジェクト

プロジェクトは、ノートブック・セッションやモデルなどのデータ・サイエンス・アセットを整理しドキュメント化するための共同ワークスペースです。

ノートブック・セッション

データ・サイエンスのノートブック・セッションは、モデルの作成およびトレーニングのための対話型コーディング環境です。ノートブック・セッションには、事前にインストールされた多くのオープン・ソースおよびオラクル社が開発した機械学習およびデータ・サイエンス・パッケージが含まれます。

Conda環境

Condaはオープン・ソース環境およびパッケージ管理システムであり、Pythonプログラム用に作成されました。パッケージをインストール、実行および更新します。Condaは、ローカル・コンピュータ上の環境間で簡単に作成、保存、ロードおよび切替えを行います。

モデル

モデルは、データおよびビジネス・プロセスの数学的な表現を定義します。モデル・カタログは、モデルの格納、トラッキング、共有および管理を行う場所です。

モデル・デプロイメント

モデル・デプロイメントは、データ・サイエンス・サービスの管理対象リソースで、モデル・カタログに格納されているモデルをHTTPエンドポイントとしてデプロイすることを可能にします。リアルタイムで予測を行うWebアプリケーション(HTTP APIエンドポイント) として機械学習モデルをデプロイすることは、モデルを本番稼働させるための最も一般的な方法です。HTTPエンドポイントは柔軟であり、モデル予測のリクエストに対応できます。

ジョブ

データ・サイエンス・ジョブにより、フル・マネージド・インフラストラクチャで繰返し可能な機械学習タスクを定義して実行できます。

パイプライン

データ・サイエンス・パイプラインは、反復可能な方法で実行できるエンドツーエンドの機械学習オーケストレーションを記述する実行可能構造です。

ログ

ロギング・サービスをデータ・サイエンスに統合して、カスタム・ログを作成および管理します。

メトリック

メトリック、アラームおよび通知を使用して、一部のデータ・サイエンス・リソースのヘルス、容量およびパフォーマンスをモニターします。

OCIの主な概念を確認します。

データ・サイエンスへのアクセス方法

データ・サイエンスには、コンソール、REST API、SDKまたはCLIを使用してアクセスします。

ユーザーのプリファレンスおよび完了するタスクに対する適合性に基づいて、次のいずれかのオプションを使用します:

  • OCIコンソールは、使いやすいブラウザベースのインタフェースです。コンソールにアクセスするには、サポートされているブラウザを使用する必要があります。
  • REST APIはほとんどの機能を提供しますが、プログラミングの専門知識を必要とします。エンドポイントの詳細とデータ・サイエンスREST APIなどの使用可能なAPIリファレンス・ドキュメントへのリンクは、APIリファレンスとエンドポイントを参照してください。
  • OCIは、フレームワークを作成せずにデータ・サイエンスと対話するSDKを提供します。
  • CLIは、プログラミングを必要とせずに、迅速なアクセスとフル機能の両方を提供します。

リージョンと可用性ドメイン

OCIサービスはリージョンおよび可用性ドメインでホストされます。リージョンは限定された地理的領域で、可用性ドメインはリージョン内の1つ以上のデータ・センターです。

データ・サイエンスは、OCIが使用可能なすべてのリージョンでホストされます。

データ・サイエンス・リソースの制限

OCIにサインアップする場合、テナンシにサービス制限のセットが構成されます。サービス制限は、リソースに設定された割当てまたは許容量です。

サービス別の制限には、データ・サイエンスの制限およびその他のOCIサービスが含まれます。デフォルトを変更するには、サービス制限の引上げをリクエストできます。

ヒント

詳細は、データ・サイエンスのサービス制限の引上げのビデオをご覧ください。

これらのサービス制限に加えて、次のことに注意してください:

  • 失敗および非アクティブなノートブック・セッションとモデルは、サービス制限に対してカウントされます。インスタンスを完全に停止した場合、またはモデルを削除した場合にのみ、割当てにカウントされません。

  • GPU制限はデフォルトでゼロに設定されているため、GPUを使用できるように制限を引き上げるようシステム管理者に依頼してください。

  • ジョブの最大数は1000です。デフォルトでは、各テナンシで最大1000個のジョブを作成できます。この制限は、CAMサービス・リクエスト・チケットで引き上げることができます。

  • 同時ジョブ実行の数は、データ・サイエンスのコア数の制限によって制限されます。

リソース識別子

ほとんどのタイプのOCIリソースには、OCID (Oracle Cloud Identifier)と呼ばれる一意のIDが割り当てられています。

OCIDは、コンソールとAPIの両方で、リソース情報の一部として含まれます。OCIDの形式およびその他のリソース識別方法の詳細は、リソース識別子を参照してください。

認証と認可

OCIの各サービスは、すべてのインタフェース(OCIコンソールSDKREST APIまたはCLI)を介してクラウド・リソースにアクセスするためにIdentity and Access Managementと統合されています。

組織の管理者は、テナンシ、グループ、コンパートメント、誰がどのサービスやリソースにアクセスできるかおよびアクセスのタイプを制御するポリシーを設定する必要があります。管理者は、ユーザーが使用するコンパートメントを確認します。

ポリシーを使用して、データ・サイエンス・プロジェクトを作成および管理したり、ノートブック・セッションを起動します。

プロビジョニングと価格設定

データ・サイエンス・サービスは、モデルの開発およびデプロイメントにサーバーレス・エクスペリエンスを提供します。ノートブック・セッション、モデル、モデル・デプロイメント、ジョブなどのデータ・サイエンス・リソースを作成すると、基礎となるコンピュートおよびストレージ・インフラストラクチャがプロビジョニングおよび保守されます。

基礎となるインフラストラクチャ(ブロック・ストレージ、コンピュートおよびオブジェクト・ストレージ)の使用に対して支払います。データ・サイエンス・リソースの詳細な価格設定リストを確認します。

データ・サイエンス・リソースで使用している間、インフラストラクチャの支払のみです:

ノートブック・セッション
  • ノートブック・セッションはサーバーレスで、基礎となるインフラストラクチャはすべてサービス管理されています。

  • ノートブック・セッションを作成する際、VMシェイプ(マシンのタイプ(CPUまたはGPU)およびOCPUまたはGPUの数)およびブロック・ストレージの容量(最小50GB)を選択します。

  • ノートブック・セッションがアクティブな間は、標準Oracle Cloud Infrastructureレートでコンピュートおよびブロック・ストレージの料金がかかります。ノートブック・セッションの非アクティブ化を参照してください。
  • ノートブック・セッションを非アクティブ化できます。これにより、コンピュートが停止されますが、ブロック・ストレージが保持されます。この場合、コンピュートには請求されなくなりますが、ブロック・ストレージへの支払いは継続します。これは、GPUインスタンスを使用するノートブック・セッションに適用されます。GPUインスタンスを使用するノートブック・セッションは、非アクティブ化されている場合、コンピュートに対して測定されません。

    ノートブック・セッションをアクティブ化して、このブロック・ストレージを新規コンピュートに再度アタッチできます。ノートブック・セッションのアクティブ化を参照してください。

  • ノートブック・セッションを削除すると、コンピュートまたはブロック・ストレージの料金は請求されなくなりました。ノートブック・セッションの削除を参照してください。

モデル
  • モデルをモデル・カタログに保存すると、1か月当たりのGB単位の標準オブジェクト・ストレージ・レートでモデル・アーティファクトのストレージに請求されます。

  • モデルを削除すると請求されなくなります。モデルの削除を参照してください。

モデル・デプロイメント
  • モデルをデプロイするときに、モデル・サーバーをホストするシェイプ・タイプおよびレプリカの数を選択します。デプロイメントに関連付けるロード・バランサ帯域幅を選択することもできます。

  • モデル・デプロイメントがアクティブな場合、モデル・サーバーとロード・バランサをホストしているVMの標準OCIレートでの料金がかかります。

  • モデル・デプロイメントを非アクティブ化すると、VMまたはロード・バランサに対して請求されなくなります。VMsとロード・バランサの両方のモデル・デプロイメントおよび請求履歴書を再アクティブ化できます。

  • モデル・デプロイメントを削除すると、モデル・デプロイメントに関連付けられたインフラストラクチャの料金は請求されなくなります。

ジョブ
  • ジョブでは、サービスを使用するためのプレミアム・コストは発生せず、基礎となる使用インフラストラクチャについてのみ、ジョブ・アーティファクトの実行期間中だけ支払いが発生します。

  • メータリングは、ジョブ・アーティファクトが実行された瞬間から開始され、コードが終了すると停止します。インフラストラクチャのプロビジョニング時間やインフラストラクチャのプロビジョニング解除に対する費用はかかりません。

    メータリングには、ジョブ・アーティファクトの実行期間中のOCPU当たりのCPUまたはGPU消費量と、ジョブに使用されたブロック・ストレージ・サイズが含まれます。

  • ジョブでロギング・サービスを使用しても、追加料金は発生しません。

パイプライン
  • パイプラインは、パイプラインがパイプライン・ステップ・コードの実行に使用する基礎となるコンピュートおよびブロック・ストレージの使用によって請求されます。

  • オーケストレーションまたはアーティファクト・ストレージに追加料金はかかりません。

ヒント

残高および使用状況の確認を使用して、アカウントに関連付けられているコストを確認できます。また、Oracle Cloud Infrastructureの請求および支払ツールを使用して、データ・サイエンスの使用状況を分析したり、コストを管理できます。

コンプライアンス

データ・サイエンス・サービスが準拠している標準を確認します。

サービスは次の標準に準拠しています:

HIPAA。患者のプライバシを保護するためにヘルスケア企業で使用されます。

PCI-DSS。不正行為から消費者を保護するためにクレジット・カード業界で使用されます。