High Performance Computingのメトリック
Oracle Cloud Infrastrutureは、HPCインスタンスのパフォーマンスに対する可視性を向上させる特殊なメトリックを提供します。
HPCメトリックは、標準のコンピュート・インスタンス・メトリックに似ていますが、HPCメトリックは、GPUおよびRDMAモニタリングが有効なHPCプラグインを持ち、gpu_infrastructure_health
およびrdma_infrastructure_health
の顧客ネームスペースに存在するインスタンスでのみ使用できます。コンピュート・メトリックへのアクセスおよび管理の詳細は、コンピュート・インスタンス・メトリックを参照してください。
使用可能なメトリック: gpu_infrastructure_health
コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットを測定するのに役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesRead
はインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesIn
はインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースgpu_infrastructure_health
から出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- タイムスタンプ
- ペイロード/ハートビートが出力されるUTC時間
- のバージョン
- 互換性のペイロード・バージョン番号
メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
---|---|---|---|---|
GpuUtilization
|
GPU使用率 | % |
GPUのアクティビティ・レベル。合計時間に対する割合として表されます。 インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。 |
|
GpuMemoryUtilization |
GPUメモリー使用率 | % | 使用中のGPUメモリー・リソースの割合。 | |
GpuPowerDraw |
GPU消費電力 | integer | 使用されるGPU電力の量。 | |
GpuTemperature |
GPU温度 | integer | GPUの温度が報告されました。 | |
GpuEccSingleBitErrors |
GPUシングル・ビット・エラー | integer | 報告されたGPUシングルビットECCエラーの数。 | |
GpuEccDoubleBitErrors |
GPUダブルビット・エラー | integer | 報告されたGPUダブルビットECCエラーの数。 | |
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。 2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが( 3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが( |
フォルト・メトリック: gpu_infrastructure_health
メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
---|---|---|---|---|
Fault |
GPUフォルト | 数 |
値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。 2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが( 3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが( |
使用可能なメトリック: rdma_infrastructure_health 🔗
コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。
このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesRead
はインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesIn
はインスタンスにアタッチされたすべてのVNICについて集計されます。
メトリック・ネームスペースrdma_infrastructure_health
から出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。
モニタリング・サービスを使用して、カスタム問合せを作成することもできます。
各メトリックには次のディメンションが含まれます:
- コンポーネント
- GPUまたはrdma_nic
- タイムスタンプ
- ペイロード/ハートビートが出力されるUTC時間
- のバージョン
- 互換性のペイロード・バージョン番号
メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
---|---|---|---|---|
RdmaTxBytes
|
RDMA集計ネットワーク送信バイト | バイト | RDMAインタフェースで送信されたバイト数。 |
|
RdmaRxBytes |
RDMA集計ネットワーク受信バイト | バイト | RDMAインタフェースで受信されたバイト数。 | |
RdmaTxPackets |
RDMA集約ネットワーク送信パケット | integer | 送信したRDMAインタフェース・パケットの数。 | |
RdmaRxPackets |
RDMA集約ネットワーク受信パケット | integer | 受信したRDMAインタフェース・パケットの数。 | |
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。 2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが( 3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが( |
フォルト・メトリック: rdma_infrastructure_health
メトリック | メトリック表示名 | 単位 | 説明 | ディメンション |
---|---|---|---|---|
RdmaLinkSpeedFault |
障害 | 数 | リンク速度障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieAddressFault |
障害 | 数 | PCIEアドレスの障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieBerCheckFault |
障害 | 数 | PCIE BER障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableFlapFault |
障害 | 数 | PCIEケーブルのフラップ障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCablePlugFault |
障害 | 数 | PCIEケーブルプラグの障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
RdmaPcieCableStateFault |
障害 | 数 | PCIEケーブルの状態障害が存在するかどうかを検出します。 値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。 |
|
1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。 2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが( 3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが( |
High Performance Computingのポリシー 🔗
動的グループの作成
この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。
Any {instance.compartment.id = '<compartment_ocid>'}
OCIによるフォルト管理の使用
この例では、OCIがフォルトを管理できるようにするポリシーを作成します。
Allow dynamic-group <group_name> to inspect all-resources in tenancyまたは
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>