高性能コンピューティング・メトリック

Oracle Cloud Infrastrutureは、HPCインスタンスのパフォーマンスに対する可視性を向上する特殊なメトリックを提供します。

HPCメトリックは、標準のコンピュート・インスタンス・メトリックに似ていますが、HPCメトリックは、GPUおよびRDMAモニタリングが有効になっているHPCプラグインがあり、gpu_infrastructure_healthおよびrdma_infrastructure_health顧客ネームスペースにあるインスタンスでのみ使用できます。コンピュート・メトリックへのアクセスおよび管理の詳細は、コンピュート・インスタンス・メトリックを参照してください。

使用可能なメトリック: gpu_infrastructure_health

コンピュート・インスタンス・メトリックでは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべてのコンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。

メトリック・ネームスペースgpu_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント: GPUまたはrdma_nic
時刻: ペイロード/ハートビートが発行されるUTC時間
バージョン: 互換性のペイロード・バージョン番号


メトリック	メトリック表示名	単位	説明	ディメンション
`GpuUtilization`	GPU利用率	%	GPUの活動レベル合計時間に対する割合として表されます。インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。	`availabilityDomain` `faultDomain` `gpuId` `imageId` `instancePoolId` `region` `resourceDisplayName` `resourceId` `shape`
`GpuMemoryUtilization`	GPUメモリー使用率	%	使用中のGPUメモリー・リソースの割合。
`GpuPowerDraw`	GPU消費電力	整数	使用されるGPU電力の量。
`GpuTemperature`	GPU温度	整数	GPU温度が報じた。
`GpuEccSingleBitErrors`	GPUシングルビット・エラー	整数	報告されたGPUシングル・ビットECCエラーの数。
`GpuEccDoubleBitErrors`	GPUダブルビットエラー	整数	報告されたGPUダブル・ビットECCエラーの数。
¹このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。 ²ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(`oci_vcn`メトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。 ³ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(`oci_blockstore`メトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

障害メトリック: gpu_infrastructure_health


メトリック	メトリック表示名	単位	説明	ディメンション
`Fault`	GPUフォルト	件数	値が0の場合、障害はありません。値が1の場合、障害が検出されます。	`availabilityDomain` `faultCode` `faultDomain` `gpuId` `imageId` `instancePoolId` `pcieAddress` `region` `resourceDisplayName` `resourceId` `shape`
¹このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。 ²ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(`oci_vcn`メトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。 ³ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(`oci_blockstore`メトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

使用可能なメトリック: rdma_infrastructure_health

コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべてのコンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

メトリック・ネームスペースrdma_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント: GPUまたはrdma_nic
時刻: ペイロード/ハートビートが発行されるUTC時間
バージョン: 互換性のペイロード・バージョン番号


メトリック	メトリック表示名	単位	説明	ディメンション
`RdmaTxBytes`	RDMA集約ネットワーク送信バイト数	バイト	RDMAインタフェースで送信されたバイト数。	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaRxBytes`	RDMA集約ネットワーク受信バイト数	バイト	RDMAインタフェースで受信されたバイト数。
`RdmaTxPackets`	RDMA集約ネットワーク送信パケット	整数	送信したRDMAインタフェース・パケットの数。
`RdmaRxPackets`	RDMA集約ネットワーク受信パケット	整数	受信したRDMAインタフェース・パケットの数。
¹このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。 ²ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(`oci_vcn`メトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。 ³ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(`oci_blockstore`メトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

障害メトリック: rdma_infrastructure_health


メトリック	メトリック表示名	単位	説明	ディメンション
`RdmaLinkSpeedFault`	フォルト	件数	リンク速度障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。	`availabilityDomain` `faultDomain` `imageId` `instancePoolId` `pcieAddress` `rdmaId` `region` `resourceDisplayName` `resourceId` `shape`
`RdmaPcieAddressFault`	フォルト	件数	PCIEアドレスの障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。
`RdmaPcieBerCheckFault`	フォルト	件数	PCIE BER障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。
`RdmaPcieCableFlapFault`	フォルト	件数	PCIEケーブルのフラップ障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。
`RdmaPcieCablePlugFault`	フォルト	件数	PCIEケーブルプラグの障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。
`RdmaPcieCableStateFault`	フォルト	件数	PCIEケーブルの状態障害が存在するかどうかを検出します。値が0の場合、障害はありません。値が1の場合、障害が検出されます。
¹このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。 ²ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(`oci_vcn`メトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。 ³ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(`oci_blockstore`メトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

High Performance Computingのポリシー

動的グループの作成

この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。

Any {instance.compartment.id = '<compartment_ocid>'}

OCIによる障害管理の使用

この例では、OCIでフォルトを管理できるポリシーを作成します。

Allow dynamic-group <group_name> to inspect all-resources in tenancy

または

Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>