Surveillance de l'état de Compute pour les instances Bare Metal
La surveillance de l'état de Compute pour les instances Bare Metal est une fonctionnalité qui fournit des notifications concernant les problèmes matériels de vos instances Bare Metal. Elle vous permet de surveiller l'état du matériel de vos instances Bare Metal, y compris les composants tels que l'UC, la carte mère, les modules DIMM et les lecteurs NVMe. Vous pouvez utiliser les notifications pour identifier les problèmes, ce qui vous permet de redéployer de manière proactive vos instances afin d'en améliorer la disponibilité.
Les notifications de surveillance de l'état sont envoyées par courriel à l'administrateur de locataires sous un jour ouvrable à compter de l'apparition de l'erreur. Cet avertissement vous permet de prendre des mesures avant toute défaillance matérielle potentielle et de redéployer vos instances sur du matériel en bon état pour minimiser l'impact sur vos applications.
Vous pouvez également utiliser les mesures d'état de l'Infrastructure disponibles dans le service Monitoring pour créer desalarmes et des notifications en fonction des problèmes matériels.
Messages d'erreur et dépannage
Cette section contient des informations concernant les messages d'erreur de surveillance de l'état les plus courants et suggère de résoudre les problèmes à essayer pour une instance Bare Metal.
Classe d'erreur : DC_ENVIRONMENT
Détails : DC_ENVIRONMENT est un événement qui est un problème de centre de données et non un problème de système. En règle générale, le problème est lié à la puissance ou à la température et est également réparable en direct.
Voici quelques exemples de problèmes pouvant entraîner ce type de problème : panne de ventilateur sur un serveur, panne d'une unité d'alimentation ou défaillance de la climatisation dans le centre de données.
Classe de panne : GPU
Détails : cette erreur indique qu'au moins une unité de traitement graphique (GPU) en échec a été détectée sur l'instance lors de sa création ou de son exécution.
Etapes de dépannage :
Essayez l'une des options de dépannage suivantes :
-
Installez l'outil de diagnostic OCI HPC/GPU
dr-hpc
, qui exécute une série de commandes permettant de vérifier l'état du matériel.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Exécutez les outils de diagnostic
dcgm
. (Reportez-vous à la section NVIDIA GPU Debug Guidelines.)dcgmi diag -r [1,2,3]
-
Collectez les journaux de débogage NVIDIA et grep pour détecter les erreurs dans les journaux.
sudo /usr/bin/nvidia-bug-report.sh # This log can be sent to OCI Support for analysis
Classe de panne : RDMA
Détails : cette erreur indique qu'au moins une carte d'interface réseau (NIC) RDMA est dégradée ou défectueuse.
Etapes de dépannage :
Essayez l'une des options de dépannage suivantes :
-
Installez l'outil de diagnostic OCI HPC/GPU
dr-hpc
, qui exécute une série de commandes permettant de vérifier l'état du matériel.wget https://objectstorage.eu-frankfurt-1.oraclecloud.com/p/tGXIZ_L6BR-yBp2BPXzGcNXYEhyLveHTLT0n1wg8Fdp4AH3-UjY77RlrXIOBJCSI/n/hpc/b/source/o/oci-dr-hpc-latest.el7.noarch.rpm
sudo yum install oci-dr-hpc-latest.el7.noarch.rpm cd /opt/oci-hpc/oci-dr-hpc/ ./oci-dr-hpc run-health-checks
- Exécutez les commandes de débogage Mellanox pour la carte d'interface réseau.
sudo su mlx_devices=$(echo "$ibdev2netdev_output" | awk '/mlx5_[0-9]+.*==>/ && $2 ~ /mlx5_(0?[0-9]|1[0-9]|20)$/ { sub(/\([^\)]+\)$/, "", $NF); print $2 }') for d in ${mlx_devices[@]}; do echo $d; mlxlink -d $d -c -m -e ; done
Classe de panne : CPU
Détails : cette erreur signale l'échec d'un processeur ou de coeurs dans l'instance. L'instance peut être inaccessible ou le nombre de coeurs disponibles peut être inférieur à celui attendu.
Etapes de dépannage :
-
Si l'instance est inaccessible, vous devez la remplacer en procédant comme indiqué dans Migration active, de redémarrage et manuelle : déplacement d'une instance Compute vers un nouvel hôte.
-
Si l'instance est disponible, vérifiez le nombre de coeurs attendu :
-
Sur les systèmes Linux, exécutez la commande suivante :
nproc --all
-
Sur les systèmes Windows, ouvrez le moniteur de ressources.
Comparez le nombre de coeurs aux valeurs attendues documentées dans Formes de calcul. Si le nombre de coeurs est inférieur à celui attendu et qu'une telle réduction a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte : migration en direct, redémarrage et migration manuelle.
-
Classe de panne : MEM-BOOT
Détails : cette erreur indique que des modules DIMM en échec ont été détectés dans l'instance lors du lancement ou du redémarrage de cette dernière. Les modules DIMM en échec ont été désactivés.
Etapes de dépannage : la quantité totale de mémoire de l'instance sera inférieure à celle attendue. Si cela a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte (en direct, au redémarrage et au redémarrage manuel).
Pour vérifier la quantité de mémoire dans l'instance, procédez comme suit :
-
Sur les systèmes Linux, exécutez la commande suivante :
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Sur les systèmes Windows, ouvrez le moniteur de ressources.
Les valeurs attendues sont documentées dans Formes de calcul.
Classe de panne : MEM-RUNTIME
Détails : cette erreur indique que des erreurs non critiques ont été détectées sur un module DIMM dans l'instance. L'instance a peut-être été redémarrée de façon inattendue au cours des dernières 72 heures.
Etapes de dépannage :
-
Si l'instance a été redémarrée de façon inattendue au cours des dernières 72 heures, des modules DIMM ont peut-être été désactivés. Pour vérifier la quantité totale de mémoire dans l'instance, procédez comme suit :
-
Sur les systèmes Linux, exécutez la commande suivante :
awk '$3=="kB"{$2=$2/1024**2;$3="GB";} 1' /proc/meminfo | column -t | grep MemTotal
-
Sur les systèmes Windows, ouvrez le moniteur de ressources.
Si la mémoire totale de l'instance est inférieure à la valeur attendue, cela signifie que des modules DIMM ont échoué. Si cela a une incidence sur l'application, nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte (en direct, au redémarrage et au redémarrage manuel).
-
-
Si l'instance n'a pas été redémarrée de façon inattendue, le faire présente un risque accru. Lors du prochain redémarrage, des modules DIMM pourraient être désactivés. Nous vous recommandons de remplacer l'instance en procédant comme indiqué dans Déplacement d'une instance Compute vers un nouvel hôte en direct, au redémarrage et au redémarrage manuel.
Classe de panne : MGMT-CONTROLLER
Détails : cette erreur indique qu'un périphérique utilisé pour gérer l'instance a peut-être échoué. Vous risquez de ne pas pouvoir utiliser la console, l'interface de ligne de commande, les kits SDK ou les API pour arrêter, démarrer ou redémarrer l'instance. Cette fonctionnalité restera disponible à partir de l'instance à l'aide des commandes de système d'exploitation standard. Il se peut également que vous ne puissiez pas créer une connexion de console à l'instance. Vous pourrez néanmoins toujours mettre fin à l'instance.
Etapes du dépannage : si cette perte de contrôle a une incidence sur votre application, nous vous recommandons d'effectuer le remplacement de l'instance en respectant les étapes indiquées dans Déplacement d'une instance Compute vers un nouvel hôte.
Classe de panne : PCI
Détails : cette erreur indique que des périphériques PCI de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.
Etapes de dépannage :
-
Si vous ne parvenez pas à vous connecter à l'instance sur le réseau, la carte d'interface réseau est peut-être défaillante. Utilisez la console ou l'interface de ligne des commandes pour arrêter l'instance, puis la démarrer. Pour connaître les étapes à suivre, reportez-vous à Arrêt, démarrage ou redémarrage d'une instance.
Si vous ne parvenez toujours pas à vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes de la section Making a Local Connection to the Console ou de la section Connecting to the VNC Console pour établir une connexion à cette console et redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer en procédant comme indiqué dans Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte
-
Un périphérique NVMe est peut-être en échec.
Sur les systèmes Linux, exécutez la commande
sudo lsblk
pour obtenir la liste des périphériques NVMe attachés.Sur les systèmes Windows, ouvrez le gestionnaire de disque. Comparez le nombre de périphériques NVMe avec le nombre de périphériques attendu dans Formes de calcul.
Si vous déterminez qu'un périphérique NVMe est absent de la liste des périphériques de l'instance, nous vous recommandons d'effectuer le remplacement de l'instance en respectant les étapes indiquées dans Déplacement d'une instance Compute vers un nouvel hôte.
Classe de panne : PCI-NIC
Détails : cette erreur indique que des périphériques de carte d'interface réseau de l'instance ont échoué ou ne fonctionnent pas avec des performances maximales.
La classe de panne
PCI-NIC
est en phase d'abandon. Vous devez migrer vers la classe de panne PCI
pour obtenir des fonctionnalités similaires.Etapes de dépannage : si vous ne parvenez pas de vous connecter à l'instance sur le réseau, la carte d'interface réseau peut-être défaillante. Utilisez la console ou l'interface de ligne des commandes pour arrêter l'instance, puis la démarrer. Pour connaître les étapes à suivre, reportez-vous à Arrêt, démarrage ou redémarrage d'une instance.
Si vous ne parvenez toujours pas à vous connecter à l'instance sur le réseau, vous pouvez peut-être vous y connecter à l'aide d'une connexion à la console. Suivez les étapes de la section Making a Local Connection to the Console ou de la section Connecting to the VNC Console pour établir une connexion à cette console et redémarrer l'instance. Si l'instance reste inaccessible, vous devez la remplacer en procédant comme indiqué dans Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte
Classe de panne : SDN-INTERFACE
Détails : si vous ne pouvez pas vous connecter à l'instance ou que vous rencontrez des problèmes de fonctions de réseau, le périphérique d'interface réseau défini par logiciel est peut-être en panne
Etapes du dépannage : bien que leredémarrage de l'instance puisse résoudre temporairement le problème, nous vous recommandons de remplacer l'instance à l'aide des étapes Mise en ligne, réinitialisation et migration manuelle : déplacement d'une instance Compute vers un nouvel hôte