OCA HPCプラグインを使用したGPUメトリックの有効化
GPUメトリックは、インスタンス上のOracle Cloud Agent High Performance Computingプラグインで有効にできます。
| 現在のOCI HPCパッケージ | 新しいOCAプラグイン | 説明 |
|---|---|---|
| oci-cn-auth | HPC RDMA認証の計算 oci-rdma- 認証 |
QoS、MTUなどの設定を使用してRDMA/RoCEネットワーク・インタフェースを構成し、認証を維持します。 |
| oci-hpc-mlx-configure | Compute HPC RDMAの自動構成 oci-hpc-configure |
MellanoxのConnectX-5ファームウェアおよびPCIE設定を構成します。 |
| oci-hpc-rdma-configure | Compute HPC RDMAの自動構成 oci-hpc-configure |
RDMAインタフェースIPアドレスを構成します。 |
| oci-hpc-dapl-configure | Compute HPC RDMAの自動構成 oci-hpc-configure |
レガシーMPI DAPL oci-dat.confを構成します。 |
pythonベースのソリューションから、Oracle Cloud Agent High Performance Computingプラグインを使用するように移行できます。
既存のインスタンスでのCompute HPC RDMA認証および自動構成の有効化
このワークフローは、実行中のワークロードに対して実行しないでください。これらのアクションは破壊的であり、データ損失につながる可能性があります。
-
インストールされているOracle Cloud Agentのバージョンを確認します。バージョン1.35.0以上が必要です。バージョンが1.35.0以降でない場合は、サポートに連絡してインストールパッケージを入手してください。
OL7/8
# sudo yum info oracle-cloud-agentUbuntu
snap info oracle-cloud-agent -
既存のoci-cn-authサービスを停止します。
# sudo systemctl stop oci-cn-auth-renew # sudo systemctl stop oci-cn-auth -
oci-cn-authが停止していることを確認します。
# sudo systemctl status oci-cn-auth -
wpa_supplicantサービスを停止します。
# sudo systemctl stop wpa_supplicant-wired* -
wpa_supplicantサービスが停止していることを確認します。
# sudo systemctl status wpa_supplicant-wired* -
インストールされている場合は、oci-cn-auth、oci-hpc-rdma-configure、oci-hpc-mlx-configureおよびoci-hpc-dapl-configureパッケージを削除します。
OL7/8
# sudo yum remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configureUbuntu20
# sudo apt-get remove oci-cn-auth oci-hpc-rdma-configure oci-hpc-mlx-configure oci-hpc-dapl-configure -
エージェントが有効で、実行中であることを確認します。
OL7/8
# sudo systemctl status oracle-cloud-agent # sudo systemctl status oracle-cloud-agent-updaterUbuntu20
# sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent.service # sudo systemctl status snap.oracle-cloud-agent.oracle-cloud-agent-updater.service -
インスタンスの現在のエージェント構成をダウンロードします。プラグインを有効にする方法の詳細は、「プラグインの管理」を参照してください。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json -
agent-config.jsonを変更して、1つ以上のプラグインを有効にします。
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" } ] } -
OCI ZCLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json -
SDKのコマンドラインを使用して、インスタンスに対してOCAプラグインが有効になっていることを確認します。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' -
プラグインが実行されていることを確認します。agentConfigの変更がOracle Cloud Agentに移入されるまで数分かかります。
# ps -leaf | grep oci-rdma-authentication -
すべてのRDMAネットワーク・インタフェースにwpa_supplicantがあることを確認します。
# ps -leaf | grep wpa_supplicant
HPC RDMA認証プラグインが有効なインスタンスの起動
カスタム・イメージにOracle Cloud Agent 1.35.0以上があり、OCI HPCパッケージが存在しない場合、LaunchInstanceDetailsを使用して、プラグインを有効にした状態でagentConfigを適用します。OSには、NVIDIA GPUドライバとMellanox OFEDドライバがインストールされている必要があります。
詳細は、Oracle Cloud Agentに関する項を参照してください。
RDMA GPUモニタリングの有効化
Oracle Cloud Agent 1.35.0では、RDMAおよびGPUを監視するための新機能が使用可能になりました。既存のインスタンスでこの機能を有効にするには、次の手順を実行します。
-
インスタンスの現在のエージェント構成をダウンロードします。次の項は、プラグインを有効にする1つの方法のみです。詳細は、Oracle Cloud Agentに関する項を参照してください。
# curl --silent -H "Authorization: Bearer Oracle" -L http://169.254.169.254/opc/v2/instance/ | jq -r '.agentConfig' > agent-config.json -
「コンピュートRDMA GPUモニタリング」を追加して、jsonを変更します。
# cat agent-config.json { "monitoringDisabled": false, "managementDisabled": false, "allPluginsDisabled": false, "isManagementDisabled": false, "pluginsConfig": [ { "name": "Compute HPC RDMA Authentication", "desiredState": "ENABLED" }, { "name": "Compute HPC RDMA Auto-Configuration", "desiredState": "ENABLED" }, { "name": "Compute RDMA GPU Monitoring", "desiredState": "ENABLED" } ] } -
OCI CLIまたはOCI SDKを使用して、インスタンスのagentConfigを更新します。
# oci compute instance update --instance-id <instance ocid> --agent-config file://agent-config.json
RDMA GPUモニタリングに必要なポリシー
プライベートVPNを使用する場合は、サービス・ゲートウェイが必要です。パブリック・インターネット・ゲートウェイを使用する場合、サービス・ゲートウェイは必要ありません。
モニタリング・サービスの使用方法の詳細は、モニタリングの保護を参照してください。
動的グループの作成
この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。
Any {instance.compartment.id = '<compartment_ocid>'}
ポリシーの作成
動的グループを使用してポリシーを作成し、インスタンスがメトリックを公開できるようにします。HPCモニタリング・プラグインは、請求される2つのカスタム・ネームスペースを作成します。
gpu_infrastructure_healthrdma_infrastructure_health
Allow dynamic-group <group_name> to use metrics in compartment <compartment_name> where target.metrics.namespace=<metric_namespace>'
Allow dynamic-group <group_name> to read metrics in compartment <compartment_name>
モニタリング・サービスにカスタム・メトリックを公開する方法の詳細は、カスタム・メトリックの公開を参照してください。