高性能コンピューティング・メトリック

Oracle Cloud Infrastrutureは、HPCインスタンスのパフォーマンスに対する可視性を向上する特殊なメトリックを提供します。

HPCメトリックは、標準のコンピュート・インスタンス・メトリックに似ていますが、HPCメトリックは、GPUおよびRDMAモニタリングが有効になっているHPCプラグインがあり、gpu_infrastructure_healthおよびrdma_infrastructure_health顧客ネームスペースにあるインスタンスでのみ使用できます。コンピュート・メトリックへのアクセスおよび管理の詳細は、コンピュート・インスタンス・メトリックを参照してください。

使用可能なメトリック: gpu_infrastructure_health

コンピュート・インスタンス・メトリックでは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。

メトリック・ネームスペースgpu_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント
GPUまたはrdma_nic
時刻
ペイロード/ハートビートが発行されるUTC時間
バージョン
互換性のペイロード・バージョン番号
メトリック メトリック表示名 単位 説明 ディメンション
GpuUtilization GPU利用率 %

GPUの活動レベル合計時間に対する割合として表されます。

インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization GPUメモリー使用率 % 使用中のGPUメモリー・リソースの割合。
GpuPowerDraw GPU消費電力 整数 使用されるGPU電力の量。
GpuTemperature GPU温度 整数 GPU温度が報じた。
GpuEccSingleBitErrors GPUシングルビット・エラー 整数 報告されたGPUシングル・ビットECCエラーの数。
GpuEccDoubleBitErrors GPUダブルビットエラー 整数 報告されたGPUダブル・ビットECCエラーの数。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

障害メトリック: gpu_infrastructure_health

メトリック メトリック表示名 単位 説明 ディメンション
Fault GPUフォルト 件数

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

使用可能なメトリック: rdma_infrastructure_health

コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。

メトリック・ネームスペースrdma_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

また、モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント
GPUまたはrdma_nic
時刻
ペイロード/ハートビートが発行されるUTC時間
バージョン
互換性のペイロード・バージョン番号
メトリック メトリック表示名 単位 説明 ディメンション
RdmaTxBytes RDMA集約ネットワーク送信バイト数 バイト RDMAインタフェースで送信されたバイト数。

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes RDMA集約ネットワーク受信バイト数 バイト RDMAインタフェースで受信されたバイト数。
RdmaTxPackets RDMA集約ネットワーク送信パケット 整数 送信したRDMAインタフェース・パケットの数。
RdmaRxPackets RDMA集約ネットワーク受信パケット 整数 受信したRDMAインタフェース・パケットの数。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

障害メトリック: rdma_infrastructure_health

メトリック メトリック表示名 単位 説明 ディメンション
RdmaLinkSpeedFault フォルト 件数 リンク速度障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault フォルト 件数 PCIEアドレスの障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

RdmaPcieBerCheckFault フォルト 件数 PCIE BER障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

RdmaPcieCableFlapFault フォルト 件数 PCIEケーブルのフラップ障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

RdmaPcieCablePlugFault フォルト 件数 PCIEケーブルプラグの障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

RdmaPcieCableStateFault フォルト 件数 PCIEケーブルの状態障害が存在するかどうかを検出します。

値が0の場合、障害はありません。値が1の場合、障害が検出されます。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットします。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて、追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されています。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスに接続されたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

High Performance Computingのポリシー

動的グループの作成

この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。

Any {instance.compartment.id = '<compartment_ocid>'}

OCIによる障害管理の使用

この例では、OCIでフォルトを管理できるポリシーを作成します。

Allow dynamic-group <group_name> to inspect all-resources in tenancy
または
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>