このページは機械翻訳したものです。

OCA HPCプラグインを使用したGPUメトリックの有効化

インスタンスでOracle Cloud Agent High Performance Computingプラグインを使用して、GPUメトリックを有効にできます。

現在のOCI HPCパッケージ 新規OCAプラグイン 説明
oci-cn-auth Compute HPC RDMA認証

oci-rdma-authentication

QoS、MTUなどの設定を使用してRDMA/RoCEネットワーク・インタフェースを構成し、認証を維持します。
oci-hpc-mlx-configure コンピュートHPC RDMA自動構成

oci-hpc-configure

Mellanox ConnectX-5ファームウェアおよびPCIE設定を構成します。
oci-hpc-rdma-configure コンピュートHPC RDMA自動構成

oci-hpc-configure

RDMAインタフェースのIPアドレスを構成します。
oci-hpc-dapl-configure コンピュートHPC RDMA自動構成

oci-hpc-configure

レガシーMPI DAPL oci-dat.confを構成します。
ノート

pythonベースのソリューションから移行して、Oracle Cloud Agent High Performance Computingプラグインを使用できます。

既存のインスタンスでのCompute HPC RDMA認証および自動構成の有効化

現在のOCI HPCパッケージを実行しているホストでHPC RDMA認証および自動構成を有効にするには、次のステップに従います。
ノート

実行中のワークロードでは、このワークフローを実行しないでください。これらのアクションは中断を生じさせ、データ損失につながる可能性があります。
  1. インストールされているOracle Cloud Agentのバージョンを確認します。バージョン1.35.0以降が必要です。バージョンが1.35.0以上でない場合は、サポートに連絡してインストールパッケージを入手してください。

    OL7/8

    # sudo yum info oracle-cloud-agent

    Ubuntu

    snap info oracle-cloud-agent
  2. 既存のoci-cn-authサービスを停止します。

    # sudo systemctl stop oci-cn-auth-renew
    # sudo systemctl stop oci-cn-auth
  3. oci-cn-authが停止していることを確認します。

    # sudo systemctl status oci-cn-auth
  4. wpa_supplicantサービスを停止します。

    # sudo systemctl stop wpa_supplicant-wired*
  5. wpa_supplicantサービスが停止していることを確認します。

    # sudo systemctl status wpa_supplicant-wired*
  6. インストールされている場合は、oci-cn-auth、oci-hpc-rdma-configure、oci-hpc-mlx-configureおよびoci-hpc-dapl-configureパッケージを削除します。

    OL7/8

    # sudo yum remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure

    Ubuntu20

    # sudo apt-get remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
  7. エージェントが有効化され、実行されていることを確認します。

    OL7/8

    # sudo systemctl status oracle-cloud-agent
    # sudo systemctl status oracle-cloud-agent-updater

    Ubuntu20

    # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent.service
    # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent-updater.service
  8. インスタンス上の現在のエージェント構成をダウンロードします。プラグインの有効化方法の詳細は、プラグインの管理を参照してください。

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
  9. agent-config.jsonを変更して、1つ以上のプラグインを有効にします。

    # cat agent-config.json
    {
    "monitoringDisabled": false,
    "managementDisabled": false,
    "allPluginsDisabled": false,
      "isManagementDisabled": false,
      "pluginsConfig": [
        {
          "name": "Compute HPC RDMA Authentication",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute HPC RDMA Auto-Configuration",
          "desiredState": "ENABLED"
        }
      ]
    }
  10. OCI ZCLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。

    # oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
  11. SDKのコマンドラインを使用して、インスタンスに対してOCAプラグインが有効になっていることを確認します。

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig'
  12. プラグインが実行されていることを確認します。agentConfigの変更がOracle Cloud Agentに移入されるまで数分かかります。

    # ps -leaf | grep oci-rdma-authentication
  13. すべてのRDMAネットワーク・インタフェースにwpa_supplicantがあることを確認します。

    # ps -leaf | grep wpa_supplicant

HPC RDMA認証プラグインが有効なインスタンスの起動

カスタム・イメージにOracle Cloud Agent 1.35.0以上があり、OCI HPCパッケージが存在しない場合は、LaunchInstanceDetailsを使用して、プラグインを有効にしてagentConfigを適用します。OSには、NVIDIA GPUドライバとMellanox OFEDドライバがインストールされている必要があります。

詳細は、Oracle Cloud Agentを参照してください。

RDMA GPUモニタリングの有効化

Oracle Cloud Agent 1.35.0では、RDMAおよびGPUを監視するための新機能が使用可能になりました。既存のインスタンスでこの機能を有効にする手順は、次のとおりです。

  1. インスタンス上の現在のエージェント構成をダウンロードします。次の各項は、プラグインを有効にする1つの方法です。詳細は、Oracle Cloud Agentを参照してください。

    # curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
  2. 「コンピュートRDMA GPUモニタリング」を追加して、jsonを変更します。

    # cat agent-config.json
    {
      "monitoringDisabled": false,
      "managementDisabled": false,
      "allPluginsDisabled": false,
      "isManagementDisabled": false,
      "pluginsConfig": [
        {
          "name": "Compute HPC RDMA Authentication",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute HPC RDMA Auto-Configuration",
          "desiredState": "ENABLED"
        },
        {
          "name": "Compute RDMA GPU Monitoring",
          "desiredState": "ENABLED"
        }
      ]
    }
  3. OCI CLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。

    # oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json

RDMA GPUモニタリングに必要なポリシー

プライベートVPNを使用する場合は、サービス・ゲートウェイが必要です。パブリック・インターネット・ゲートウェイを使用する場合、サービス・ゲートウェイは必要ありません。

モニタリング・サービスの使用方法の詳細は、モニタリングの保護を参照してください。

動的グループの作成

この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。

Any {instance.compartment.id = '<compartment_ocid>'}

ポリシーを作成します

動的グループを使用してポリシーを作成し、インスタンスによるメトリックの公開を許可します。HPCモニタリング・プラグインは、請求される2つのカスタム・ネームスペースを作成します:

  • gpu_infrastructure_health
  • rdma_infrastructure_health
Allow dynamic-group <group_name> to use metrics in compartment <compartment_name> where target.metrics.namespace=<metric_namespace>'
Allow dynamic-group <group_name> to read metrics in compartment <compartment_name>

カスタム・メトリックをモニタリング・サービスに公開する方法の詳細は、カスタム・メトリックの公開を参照してください。

この記事は役に立ちましたか。