このページは機械翻訳したものです。

High Performance Computingのメトリック

Oracle Cloud Infrastrutureは、HPCインスタンスのパフォーマンスに対する可視性を向上させる特殊なメトリックを提供します。

HPCメトリックは、標準のコンピュート・インスタンス・メトリックに似ていますが、HPCメトリックは、GPUおよびRDMAモニタリングが有効なHPCプラグインを持ち、gpu_infrastructure_healthおよびrdma_infrastructure_healthの顧客ネームスペースに存在するインスタンスでのみ使用できます。コンピュート・メトリックへのアクセスおよび管理の詳細は、コンピュート・インスタンス・メトリックを参照してください。

使用可能なメトリック: gpu_infrastructure_health

コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットを測定するのに役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。

メトリック・ネームスペースgpu_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント
GPUまたはrdma_nic
タイムスタンプ
ペイロード/ハートビートが出力されるUTC時間
のバージョン
互換性のペイロード・バージョン番号
メトリック メトリック表示名 単位 説明 ディメンション
GpuUtilization GPU使用率 %

GPUのアクティビティ・レベル。合計時間に対する割合として表されます。

インスタンス・プールの場合、値はプール内のすべてのインスタンスの平均です。

availabilityDomain

faultDomain

gpuId

imageId

instancePoolId

region

resourceDisplayName

resourceId

shape

GpuMemoryUtilization GPUメモリー使用率 % 使用中のGPUメモリー・リソースの割合。
GpuPowerDraw GPU消費電力 integer 使用されるGPU電力の量。
GpuTemperature GPU温度 integer GPUの温度が報告されました。
GpuEccSingleBitErrors GPUシングル・ビット・エラー integer 報告されたGPUシングルビットECCエラーの数。
GpuEccDoubleBitErrors GPUダブルビット・エラー integer 報告されたGPUダブルビットECCエラーの数。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されます。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

フォルト・メトリック: gpu_infrastructure_health

メトリック メトリック表示名 単位 説明 ディメンション
Fault GPUフォルト

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

availabilityDomain

faultCode

faultDomain

gpuId

imageId

instancePoolId

pcieAddress

region

resourceDisplayName

resourceId

shape

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されます。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

使用可能なメトリック: rdma_infrastructure_health

コンピュート・インスタンス・メトリックは、コンピュート・インスタンスのアクティビティ・レベルとスループットの測定に役立ちます。次の表に示すメトリックは、モニタリング対応のすべての コンピュート・インスタンスで使用できます。これらのメトリックを取得するには、インスタンスのモニタリングを有効にします。

このネームスペース内のメトリックは、インスタンス上のすべての関連リソースについて集計されます。たとえば、DiskBytesReadはインスタンスにアタッチされたすべてのストレージ・ボリュームについて集計され、NetworkBytesInはインスタンスにアタッチされたすべてのVNICについて集計されます。

メトリック・ネームスペースrdma_infrastructure_healthから出力されるメトリックの場合、データ・ポイントは10秒ごとにサンプリングされます。毎秒6つのデータ・ポイントのバッチが発行されます。したがって、毎分の粒度の場合、集計数は常に6、集計合計は6つのデータ・ポイントの合計、集計平均は6つのデータ・ポイントの平均になります。

モニタリング・サービスを使用して、カスタム問合せを作成することもできます。

各メトリックには次のディメンションが含まれます:

コンポーネント
GPUまたはrdma_nic
タイムスタンプ
ペイロード/ハートビートが出力されるUTC時間
のバージョン
互換性のペイロード・バージョン番号
メトリック メトリック表示名 単位 説明 ディメンション
RdmaTxBytes RDMA集計ネットワーク送信バイト バイト RDMAインタフェースで送信されたバイト数。

availabilityDomain

faultDomain

imageId

instancePoolId

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaRxBytes RDMA集計ネットワーク受信バイト バイト RDMAインタフェースで受信されたバイト数。
RdmaTxPackets RDMA集約ネットワーク送信パケット integer 送信したRDMAインタフェース・パケットの数。
RdmaRxPackets RDMA集約ネットワーク受信パケット integer 受信したRDMAインタフェース・パケットの数。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されます。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

フォルト・メトリック: rdma_infrastructure_health

メトリック メトリック表示名 単位 説明 ディメンション
RdmaLinkSpeedFault 障害 リンク速度障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

availabilityDomain

faultDomain

imageId

instancePoolId

pcieAddress

rdmaId

region

resourceDisplayName

resourceId

shape

RdmaPcieAddressFault 障害 PCIEアドレスの障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

RdmaPcieBerCheckFault 障害 PCIE BER障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

RdmaPcieCableFlapFault 障害 PCIEケーブルのフラップ障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

RdmaPcieCablePlugFault 障害 PCIEケーブルプラグの障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

RdmaPcieCableStateFault 障害 PCIEケーブルの状態障害が存在するかどうかを検出します。

値が0の場合、フォルトはありません。値が1の場合、障害が検出されます。

1このメトリックは、Oracle Cloud Agentソフトウェアの各セッションについて単調に増加する動作を示す累積カウンタです。オペレーティング・システムが再起動されるときにリセットされます。

2ネットワーキング・サービスでは、インスタンス上の各VNICについて追加のメトリックが(oci_vcnメトリック・ネームスペースで)提供されます。詳細は、ネットワーキング・メトリックを参照してください。

3ブロック・ボリューム・サービスでは、インスタンスにアタッチされたボリュームごとに追加のメトリックが(oci_blockstoreメトリック・ネームスペースで)提供されます。詳細は、ブロック・ボリューム・メトリックを参照してください。

High Performance Computingのポリシー

動的グループの作成

この例では、特定のコンパートメント内のすべてのインスタンスを含むグループを作成します。

Any {instance.compartment.id = '<compartment_ocid>'}

OCIによるフォルト管理の使用

この例では、OCIがフォルトを管理できるようにするポリシーを作成します。

Allow dynamic-group <group_name> to inspect all-resources in tenancy
または
Allow dynamic-group <group_name> to inspect all-resources in compartment <compartment>