OCA HPCプラグインを使用したGPUメトリックの有効化
インスタンスでOracle Cloud Agent High Performance Computingプラグインを使用して、GPUメトリックを有効にできます。
現在のOCI HPCパッケージ | 新規OCAプラグイン | 説明 |
---|---|---|
oci-cn-auth | Compute HPC RDMA認証 oci-rdma-authentication |
QoS、MTUなどの設定を使用してRDMA/RoCEネットワーク・インタフェースを構成し、認証を維持します。 |
oci-hpc-mlx-configure | コンピュートHPC RDMA自動構成 oci-hpc-configure |
Mellanox ConnectX-5ファームウェアおよびPCIE設定を構成します。 |
oci-hpc-rdma-configure | コンピュートHPC RDMA自動構成 oci-hpc-configure |
RDMAインタフェースのIPアドレスを構成します。 |
oci-hpc-dapl-configure | コンピュートHPC RDMA自動構成 oci-hpc-configure |
レガシーMPI DAPL oci-dat.confを構成します。 |
pythonベースのソリューションから移行して、Oracle Cloud Agent High Performance Computingプラグインを使用できます。
既存のインスタンスでのCompute HPC RDMA認証および自動構成の有効化
実行中のワークロードでは、このワークフローを実行しないでください。これらのアクションは中断を生じさせ、データ損失につながる可能性があります。
-
インストールされているOracle Cloud Agentのバージョンを確認します。バージョン1.35.0以降が必要です。バージョンが1.35.0以上でない場合は、サポートに連絡してインストールパッケージを入手してください。
OL7/8
# sudo yum info oracle-cloud-agent
Ubuntu
snap info oracle-cloud-agent
-
既存のoci-cn-authサービスを停止します。
# sudo systemctl stop oci-cn-auth-renew # sudo systemctl stop oci-cn-auth
-
oci-cn-authが停止していることを確認します。
# sudo systemctl status oci-cn-auth
-
wpa_supplicantサービスを停止します。
# sudo systemctl stop wpa_supplicant-wired*
-
wpa_supplicantサービスが停止していることを確認します。
# sudo systemctl status wpa_supplicant-wired*
-
インストールされている場合は、oci-cn-auth、oci-hpc-rdma-configure、oci-hpc-mlx-configureおよびoci-hpc-dapl-configureパッケージを削除します。
OL7/8
# sudo yum remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
Ubuntu20
# sudo apt-get remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure
-
エージェントが有効化され、実行されていることを確認します。
OL7/8
# sudo systemctl status oracle-cloud-agent # sudo systemctl status oracle-cloud-agent-updater
Ubuntu20
# sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent.service # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent-updater.service
-
インスタンス上の現在のエージェント構成をダウンロードします。プラグインの有効化方法の詳細は、プラグインの管理を参照してください。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
-
agent-config.jsonを変更して、1つ以上のプラグインを有効にします。
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" } ] }
-
OCI ZCLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
-
SDKのコマンドラインを使用して、インスタンスに対してOCAプラグインが有効になっていることを確認します。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig'
-
プラグインが実行されていることを確認します。agentConfigの変更がOracle Cloud Agentに移入されるまで数分かかります。
# ps -leaf | grep oci-rdma-authentication
-
すべてのRDMAネットワーク・インタフェースにwpa_supplicantがあることを確認します。
# ps -leaf | grep wpa_supplicant
HPC RDMA認証プラグインが有効なインスタンスの起動 🔗
カスタム・イメージにOracle Cloud Agent 1.35.0以上があり、OCI HPCパッケージが存在しない場合は、LaunchInstanceDetailsを使用して、プラグインを有効にしてagentConfigを適用します。OSには、NVIDIA GPUドライバとMellanox OFEDドライバがインストールされている必要があります。
詳細は、Oracle Cloud Agentを参照してください。
RDMA GPUモニタリングの有効化 🔗
Oracle Cloud Agent 1.35.0では、RDMAおよびGPUを監視するための新機能が使用可能になりました。既存のインスタンスでこの機能を有効にする手順は、次のとおりです。
-
インスタンス上の現在のエージェント構成をダウンロードします。次の各項は、プラグインを有効にする1つの方法です。詳細は、Oracle Cloud Agentを参照してください。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json
-
「コンピュートRDMA GPUモニタリング」を追加して、jsonを変更します。
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" }, { "name": "Compute RDMA GPU Monitoring", "desiredState": "ENABLED" } ] }
-
OCI CLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
RDMA GPUモニタリングに必要なポリシー 🔗
プライベートVPNを使用する場合は、サービス・ゲートウェイが必要です。パブリック・インターネット・ゲートウェイを使用する場合、サービス・ゲートウェイは必要ありません。
モニタリング・サービスの使用方法の詳細は、モニタリングの保護を参照してください。
動的グループの作成
この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。
Any {instance.compartment.id = '<compartment_ocid>'}
ポリシーを作成します
動的グループを使用してポリシーを作成し、インスタンスによるメトリックの公開を許可します。HPCモニタリング・プラグインは、請求される2つのカスタム・ネームスペースを作成します:
gpu_infrastructure_health
rdma_infrastructure_health
Allow dynamic-group <group_name> to use metrics in compartment <compartment_name> where target.metrics.namespace=<metric_namespace>'
Allow dynamic-group <group_name> to read metrics in compartment <compartment_name>
カスタム・メトリックをモニタリング・サービスに公開する方法の詳細は、カスタム・メトリックの公開を参照してください。