5 signes avant-coureurs d'une défaillance critique de l'équipement

Auteur: Judy Howell
Date De Création: 25 Juillet 2021
Date De Mise À Jour: 13 Peut 2024
Anonim
5 signes avant-coureurs d'une défaillance critique de l'équipement - La Technologie
5 signes avant-coureurs d'une défaillance critique de l'équipement - La Technologie

Contenu


À emporter:

Réduire les temps d'arrêt grâce à une planification minutieuse et anticipée pourrait faire toute la différence entre croissance et déclin de l'entreprise. C’est là que le temps moyen entre les échecs entre en jeu.

Ne sous-estimez pas à quel point les entreprises d'aujourd'hui s'appuient quotidiennement sur des systèmes critiques. C’est pourquoi son seul bon sens est qu’une entreprise soit en mesure d’évaluer le risque de défaillance d’un équipement. En l'absence de garantie quant à la défaillance éventuelle d'un équipement, il faut au moins une estimation précise du moment où il ne peut plus être considéré comme fiable.

Un équipement autrement invisible peut ne pas sembler essentiel pour une entreprise, mais lorsqu'un seul ventilateur en panne tombe en panne, ce qui provoque l'abandon du fantôme par un générateur et cause des dizaines, voire des centaines de milliers d'utilisateurs des problèmes coûteux pour une période prolongée, vous pouvez Assurez-vous qu'il est primordial de pouvoir estimer quels composants de votre infrastructure risquent de tomber en panne et à quel moment. C’est là que le temps moyen entre défaillances (MTBF) intervient, la méthode sur laquelle les professionnels de l’informatique comptent pour fournir estimations sur le moment où un équipement critique va échouer. Nous examinons ici ce qui tue finalement certains types courants d’équipements critiques et comment le MTBF peut aider à sauver la situation.


Qu'est-ce que MTBF?

Un numéro de modèle unique est attribué à chaque équipement informatique fabriqué. Ceux qui jouent un rôle dans les infrastructures critiques sont fournis aux clients avec une estimation MTBF. Les calculs complexes nécessaires au calcul du MTBF pour une pièce d'équipement ont lieu au cours de la longue phase de test dans le cadre de la recherche et du développement d'un produit et sont relativement spécifiques à un modèle particulier.

Si vous cherchez à trouver le MTBF pour un équipement particulier, vous le trouverez dans la fiche technique détaillée fournie par le fabricant. Vous pouvez également contacter directement le fabricant.

Routage

Un routeur d'entreprise comprend de nombreuses pièces, certaines en mouvement et d'autres statiques. Les blocs d’alimentation et les ventilateurs de refroidissement comportent des pièces mobiles, qui sont généralement des points de défaillance, en particulier si l’unité n’est pas logée dans un centre de données relativement dépourvu de poussière. Heureusement, avec quelques entrées d’administrateur, la plupart des routeurs se rapporteront à un SysLog installation, de sorte que tous les composants défaillants puissent être signalés.


Interrupteurs

Dans le même ordre d'idées, le matériel informatique de commutation constitue le niveau suivant au sein d'un réseau d'entreprise. Bien que les commutateurs de niveau entreprise aient également tendance à compter sur des ventilateurs, ils sont généralement moins nombreux que ceux trouvés dans un châssis de routeur. Si les mécanismes de vrillage des ventilateurs sont intacts, un commutateur défectueux se comportera généralement mal au niveau logiciel, soit en désactivant un port de commutateur de manière inattendue, soit, plus généralement, en présentant un comportement inhabituel, tel que la suppression de paquets, la perturbation du trafic ou la modification incorrecte. paramètres définis par l'utilisateur sans y être invité.

Le géant des réseaux Cisco annonce qu'un de ses routeurs a un MTBF de 188 574 heures pour le modèle Cisco Catalyst 3750G-24TS. Si nous divisons cela par 8.765.81277 (le nombre d'heures dans une année), alors nous voyons que ce modèle a une estimation MTBF d'environ 21,5 ans. Ce chiffre est rassurant si l’on considère que cet équipement doit fonctionner correctement 24h / 24 et 7j / 7 sans faute, bien qu’en réalité, c’est tout simplement une indication de sa fiabilité. Malgré tout, cela laisse aux utilisateurs une idée précise de la durée de vie de cet équipement.

Puissance résiliente

Les alimentations sans coupure (ASI) connectées à un grand nombre de batteries peuvent fournir une alimentation de secours au sein de l'entreprise pendant la brève période précédant le démarrage des générateurs lors d'une panne de courant. Certaines défaillances logicielles spécifiques peuvent se matérialiser dans un système UPS, comme pour tout équipement, mais en général, les batteries avec lesquelles ils tirent leur énergie sont généralement les plus préoccupantes. Si une batterie de l’onduleur est fréquemment mise hors tension et rechargée, sa capacité diminuera plus rapidement et sa durée de fonctionnement sera considérablement réduite. Sans surprise, il est également possible que les batteries de l'onduleur tombent complètement en panne. Un onduleur peut signaler via des modems et des réseaux que des défauts se développent, mais le plus souvent, les anciens onduleurs déclenchent des alarmes sonores dès qu'un problème survient.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Stockage Protégé

Les disques durs que nous utilisons aujourd'hui et sur lesquels nous comptons à ce point sont devenus beaucoup plus fiables au cours des dix dernières années. Cependant, ils sont loin d’être infaillibles et, selon l’étude que vous pourriez croire, ils semblent fonctionner correctement pendant une longue période en fonction d’un certain nombre de facteurs. (Vous trouverez un excellent article d'opinion à ce sujet ici sur The Remarketer.) Si la génération de rapports détaillés est activée et que le lecteur fournit des informations en retour sur les erreurs, les secteurs corrompus et les erreurs de lecture / écriture sont la clé de la détection d'un disque dans une matrice de stockage. est en train d'échouer. Un autre problème commun aux serveurs qui utilisent plusieurs disques connectés à un contrôleur RAID est que le contrôleur lui-même va échouer. Malheureusement, parfois, les disques durs cessent simplement de fonctionner sans aucun avertissement, un problème difficile à contrer de manière fiable.

Les serveurs

Outre les disques intégrés aux serveurs et les pièces mobiles, tels que les ventilateurs de refroidissement et les blocs d'alimentation susmentionnés, un certain nombre de problèmes peuvent également survenir au sein des composants matériels d'un serveur. La génération de rapports au niveau logiciel (qui fait généralement référence au BIOS ou à d'autres diagnostics de composants matériels de bas niveau) est essentielle pour détecter les défaillances ou, plus important encore, les signes de défaillance. Un problème qui peut ne pas être immédiatement évident est celui qui affecte les cartes mères. Il est parfaitement logique que les machines n'aiment pas trop la chaleur. Mais même aujourd’hui, si une carte de circuit imprimé moderne est soumise à une perte de chaleur rapide - ou passe de très chaud à soudainement à froid - des fissures peuvent apparaître, entraînant une défaillance catastrophique de la carte. C’est un problème à garder à l’esprit, en particulier si vous déplacez du matériel d’un immeuble à l’autre dans un délai raisonnable.

MTBF: il peut échouer aussi

Aussi utiles que soient les prévisions MTBF, il est important de calculer les niveaux de risque acceptables avec tout équipement sur lequel une entreprise doit compter. Malheureusement, malgré toutes les assurances statistiques fournies par les fabricants, le seul moyen concret de garantir la disponibilité des équipements exécutant des systèmes critiques consiste à les doubler afin de permettre un basculement temporisé.

Chaque élément matériel utilisé dans l’entreprise étant composé de nombreux composants différents, le véritable MTBF est loin d’être un calcul trivial. Il est clair qu'il est essentiel de ne pas laisser l'avenir d'une entreprise reposer sur ces mesures de probabilité, mais plutôt de les utiliser comme critère pour prendre des décisions éclairées concernant les procédures de continuité des activités et de reprise après sinistre. Après tout, réduire les temps d'arrêt grâce à une planification minutieuse et anticipée peut faire toute la différence entre une entreprise prospère et une faillite.