高性能コンピューティング・メトリック
Oracle Cloud Infrastrutureは、HPCインスタンスのパフォーマンスに対する可視性を向上する特殊なメトリックを提供します。
HPCメトリックは、標準のコンピュート・インスタンス・メトリックに似ていますが、HPCメトリックは、GPUおよびRDMAモニタリングが有効になっているHPCプラグインがあり、gpu_infrastructure_healthおよびrdma_infrastructure_health顧客ネームスペースにあるインスタンスでのみ使用できます。コンピュート・メトリックへのアクセスおよび管理の詳細は、コンピュート・インスタンス・メトリックを参照してください。
使用可能なメトリック: gpu_infrastructure_health
コンピュート・インスタンス・メトリックでは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースgpu_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- 時刻
- ペイロード/ハートビートが発行されるUTC時間
- バージョン
- 互換性のペイロード・バージョン番号
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
GpuUtilization
|
GPU利用率 | % |
GPUの活動レベル合計時間に対する割合として表されます。 インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。 |
|
GpuMemoryUtilization
|
GPUメモリー使用率 | % | 使用中のGPUメモリー・リソースの割合。 | |
GpuPowerDraw
|
GPU消費電力 | 整数 | 使用されるGPU電力の量。 | |
GpuTemperature
|
GPU温度 | 整数 | GPU温度が報じた。 | |
GpuEccSingleBitErrors
|
GPUシングルビット・エラー | 整数 | 報告されたGPUシングル・ビットECCエラーの数。 | |
GpuEccDoubleBitErrors
|
GPUダブルビットエラー | 整数 | 報告されたGPUダブル・ビットECCエラーの数。 | |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
障害メトリック: gpu_infrastructure_health
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
Fault
|
GPUフォルト | 件数 |
値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
使用可能なメトリック: rdma_infrastructure_health
コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースrdma_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- 時刻
- ペイロード/ハートビートが発行されるUTC時間
- バージョン
- 互換性のペイロード・バージョン番号
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
RdmaTxBytes
|
RDMA集約ネットワーク送信バイト数 | バイト | RDMAインタフェースで送信されたバイト数。 |
|
RdmaRxBytes
|
RDMA集約ネットワーク受信バイト数 | バイト | RDMAインタフェースで受信されたバイト数。 | |
RdmaTxPackets
|
RDMA集約ネットワーク送信パケット | 整数 | 送信したRDMAインタフェース・パケットの数。 | |
RdmaRxPackets
|
RDMA集約ネットワーク受信パケット | 整数 | 受信したRDMAインタフェース・パケットの数。 | |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
障害メトリック: rdma_infrastructure_health
| メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
|---|---|---|---|---|
RdmaLinkSpeedFault
|
フォルト | 件数 | リンク速度障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieAddressFault
|
フォルト | 件数 | PCIEアドレスの障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieBerCheckFault
|
フォルト | 件数 | PCIE BER障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableFlapFault
|
フォルト | 件数 | PCIEケーブルのフラップ障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCablePlugFault
|
フォルト | 件数 | PCIEケーブルプラグの障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableStateFault
|
フォルト | 件数 | PCIEケーブルの状態障害が存在するかどうかを検出します。 値が0の場合、障害はありません。値が1の場合、障害が検出されます。 |
|
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。
2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(
3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが( |
||||
High Performance Computingのポリシー
動的グループの作成
この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。
Any {instance.compartment.id = '<compartment_ocid>'}
OCIによる障害管理の使用
この例では、OCIでフォルトを管理できるポリシーを作成します。
Allow dynamic-group <group_name> to inspect all-resources in tenancyまたは
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>