ベアメタル・インスタンスのコンピュート・ヘルス・モニタリング
ベアメタル・インスタンスのコンピュート・ヘルス・モニタリングは、ベア・メタル・インスタンスのハードウェアの問題に関して通知を提供する機能です。ヘルス・モニタリング機能を使用して、ベア・メタル・インスタンスのハードウェア(CPU、マザーボード、DIMM、NVMeドライブなどコンポーネントを含む)のヘルスをモニターできます。通知を使用して問題を識別し、積極的にインスタンスを再デプロイして可用性を改善できるようになります。
ヘルス・モニタリング通知は、エラーが発生してから1営業日以内にテナント管理者に電子メールで送信されます。この警告を使用すると、潜在的なハードウェア障害に先立って行動し、インスタンスを正常なハードウェアに再デプロイしてアプリケーションへの影響を最小限に抑えることができます。
また、モニタリング・サービスで使用可能なインフラストラクチャ・ヘルス・メトリックを使用して、ハードウェアの問題に基づいたアラーム や通知を作成することもできます。
エラーメッセージとトラブルシューティング
この項では、最も一般的なヘルス・モニタリング・エラー・メッセージに関する情報を示し、ベア・メタル・インスタンスに対して試すことができるトラブルシューティング方法を提案します。
フォルト・クラス: DC_ENVIRONMENT
詳細: DC_ENVIRONMENTは、データ・センターの問題であり、システムの問題ではないイベントです。通常、問題は電力または温度に関連しており、ライブ修復も可能です。
このタイプの問題を引き起こす可能性のある問題の例として、サーバーでのファン障害、電源ユニットの障害、またはデータセンターでの空調障害などがあります。
フォルト・クラス: GPU
詳細:このエラーは、インスタンスの作成中または実行中に、インスタンスで障害が発生したグラフィック処理ユニット(GPU)が少なくとも1つ検出されたことを示します。
トラブルシューティング・ステップ:
次のトラブルシューティング・オプションのいずれかを試してください:
-
ハードウェアのヘルスをチェックする一連のコマンドを実行するOCI HPC/GPU診断ツール
dr-hpc
をインストールします。wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
dcgm
診断ツールを実行します。(NVIDIA GPUデバッグ・ガイドラインを参照)dcgmi diag -r [1,2,3]
-
NVIDIAデバッグ・ログを収集し、grepでログ内のエラーを確認します。
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
フォルト・クラス: RDMA
詳細:このエラーは、少なくとも1つのRDMAネットワークインタフェースカード(NIC)が機能低下しているか、または障害があることを示します。
トラブルシューティング・ステップ:
次のトラブルシューティング・オプションのいずれかを試してください:
-
ハードウェアのヘルスをチェックする一連のコマンドを実行するOCI HPC/GPU診断ツール
dr-hpc
をインストールします。wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- NICのMellanoxデバッグ・コマンドを実行します。
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
フォルト・クラス: CPU
詳細: このエラーは、プロセッサまたは1つ以上のコアの障害がインスタンスで発生したことを示します。インスタンスにアクセスできなくなるか、使用可能なコアが想定より少なくなることがあります。
トラブルシューティング・ステップ:
-
インスタンスにアクセスできない場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換する必要があります。
-
インスタンスが使用可能な場合は、想定されるコア数を確認します:
-
Linuxベース・システムでは、次のコマンドを実行します:
nproc --all
-
Windowsベース・システムでは、リソース・モニターを開きます:
コア数をコンピュート・シェイプに記載されている想定値と比較します。コアの数が想定よりも少なく、この減少がアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移行のステップを使用してインスタンスを置換することをお薦めします。
-
フォルト・クラス: MEM-BOOT
詳細: このエラーは、インスタンスの起動または再起動中にインスタンスの1つ以上のDIMMで障害が検出されたことを示します。障害が発生したDIMMはすべて無効になっています。
トラブルシューティング・ステップ: インスタンス内のメモリーの合計量が想定より少なくなります。これがアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。
インスタンスのメモリー容量を確認するには:
-
Linuxベース・システムでは、次のコマンドを実行します:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Windowsベース・システムでは、リソース・モニターを開きます:
想定値はコンピュート・シェイプに記載されています。
フォルト・クラス: MEM-RUNTIME
詳細: このエラーは、インスタンスのDIMMでクリティカルでないエラーが1つ以上検出されたことを示します。インスタンスが過去72時間以内に予期せずに再起動された可能性があります。
トラブルシューティング・ステップ:
-
インスタンスが過去72時間以内に予期せずに再起動されると、1つ以上のDIMMが無効になっている可能性があります。インスタンスの合計メモリー容量を確認するには:
-
Linuxベース・システムでは、次のコマンドを実行します:
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Windowsベース・システムでは、リソース・モニターを開きます:
インスタンスの合計メモリーが想定より少ない場合は、1つ以上のDIMMで障害が発生しています。これがアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。
-
-
インスタンスが予期せずに再起動されていなかったとしても、再起動のリスクが増大しています。次回の再起動時に1つ以上のDIMMが無効になる可能性があります。ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。
フォルト・クラス: MGMT-CONTROLLER
詳細: このエラーは、インスタンスの管理に使用されるデバイスで障害が発生した可能性があることを示します。コンソール、CLI、SDKまたはAPIを使用して、インスタンスの停止、起動またはリブートを行えない可能性があります。この機能は、オペレーティング・システムの標準コマンドを使用すればインスタンスで引き続き使用可能です。インスタンスへのコンソール接続を作成できなくなる場合もあります。インスタンスを終了することはできます。
トラブルシューティング・ステップ:このような制御が失われてアプリケーションに影響する場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。
フォルト・クラス: PCI
詳細: このエラーは、インスタンスの1つ以上のPCIデバイスで障害が発生したか、高いパフォーマンスで動作していないことを示します。
トラブルシューティング・ステップ:
-
ネットワークを介してインスタンスに接続できない場合は、NICで障害が発生した可能性があります。コンソールまたはCLIを使用してインスタンスを停止してからインスタンスを起動します。ステップについては、インスタンスの停止、起動または再起動を参照してください。
引き続きネットワークを介してインスタンスに接続できない場合でも、コンソール接続を使用して接続できることがあります。シリアル・コンソールへのローカル接続またはVNCコンソールへの接続のステップに従ってコンソール接続を確立し、インスタンスを再起動します。それでもインスタンスにアクセスできない場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換する必要があります。
-
NVMeデバイスで障害が発生した可能性があります。
Linuxベース・システムでは、コマンド
sudo lsblk
を実行して、アタッチされたNVMeデバイスのリストを取得します。Windowsベースのシステムではディスク・マネージャを開きます。NVMeデバイスの数をコンピュート・シェイプのデバイスの想定数に対して確認します。
インスタンスのデバイス・リストからNVMeデバイスが欠落していると判断した場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。
フォルト・クラス: PCI-NIC
詳細: このエラーは、インスタンス内の1つ以上のインスタンス・ネットワーク・インタフェース・カード(NIC)デバイスで障害が発生したか、高いパフォーマンスで動作していないことを示します。
トラブルシューティング・ステップ: ネットワークを介してインスタンスに接続できない場合は、NICで障害が発生した可能性があります。コンソールまたはCLIを使用してインスタンスを停止してからインスタンスを起動します。ステップについては、インスタンスの停止、起動または再起動を参照してください。
引き続きネットワークを介してインスタンスに接続できない場合でも、コンソール接続を使用して接続できることがあります。シリアル・コンソールへのローカル接続またはVNCコンソールへの接続のステップに従ってコンソール接続を確立し、インスタンスを再起動します。それでもインスタンスにアクセスできない場合は、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換する必要があります。
フォルト・クラス: SDN-INTERFACE
詳細: インスタンスに接続できない場合、またはネットワークの問題が発生している場合、ソフトウェア定義のネットワーク・インタフェース・デバイスで障害が発生した可能性があります。
トラブルシューティング・ステップ: インスタンスを再起動すると問題が一時的に解決する可能性がありますが、ライブ、再起動および手動移行: コンピュート・インスタンスの新規ホストへの移動のステップを使用してインスタンスを置換することをお薦めします。