Self-Monitoring, Analysis and Reporting Technology

Self-Monitoring, Analysis and Reporting Technology
Exemple dattributs S.M.A.R.T.

Self-Monitoring, Analysis, and Reporting Technology, ou S.M.A.R.T. (littéralement Technique dAuto-surveillance, dAnalyse et de Rapport) est un système de surveillance du disque dur dun ordinateur. Il permet de faire un diagnostic selon plusieurs indicateurs de fiabilité dans le but danticiper les erreurs sur le disque dur.

Sommaire

Contexte de mise en œuvre

Les disques durs peuvent souffrir de deux types de défaillances :

  • les défaillances prévisibles, qui surviennent suite à la dégradation lente de certains composants, en particulier à cause de lusure et du vieillissement des pièces mécaniques ;
  • les défaillances imprévisibles, qui peuvent survenir soudainement, comme un composant électrique qui grille.

Un système de surveillance peut détecter le premier type de défaillance, tout comme la jauge de température du tableau de bord dune voiture peut prévenir le conducteur - avant que de graves dégâts napparaissent - que le moteur a commencé à surchauffer.

Les pannes mécaniques, qui sont des défaillances prévisibles, représentent 60 % des pannes de disque[1]. Le but du système S.M.A.R.T. est de prévenir lutilisateur ou ladministrateur système de limminence dune panne de disque alors quil reste encore du temps pour agir - comme par exemple copier les données sur un disque de remplacement. Environ 30 % des défaillances peuvent être prévues par le système S.M.A.R.T[2].

La page de PCTechGuide à propos de S.M.A.R.T. (2003) explique que le développement de cette technique a connu 3 phases :

« Dans sa version originale, SMART fournissait une prévision des défaillances par la surveillance de certaines activités du disque dur en fonctionnement. Une seconde version a amélioré la prévision des défaillances en ajoutant un balayage en lecture automatique à larrêt pour surveiller des opérations supplémentaires. La dernière technologie SMART III surveille non seulement les activités du disque dur mais augmente aussi la prévention des défaillances en tentant de détecter et de réparer les erreurs sur des secteurs. En outre, alors que les précédentes versions de cette technologie surveillaient uniquement lactivité du disque dur concernant les données récupérées par le système dexploitation, SMART III analyse toutes les données et tous les secteurs dun disque en utilisant la collecte de données à larrêt pour confirmer le bon état du disque durant les périodes dinactivité. »

Standards, implémentation et limitations

Compaq fut linstigateur du système S.M.A.R.T, mais aujourdhui[Quand ?] la plupart des principaux fabricants de disques durs et de cartes mères supportent le système, au moins en partie. De nombreuses cartes mères afficheront un message prévenant dune panne imminente du disque dur. Bien quil commence désormais à exister une certaine standardisation entre la plupart des principaux fabricants de disques durs[3], il reste plusieurs problèmes et chaque fabricant, de par son approche spécifique, garde une bonne part de ses connaissances secrètes. En conséquence, S.M.A.R.T. nest pas toujours implémenté correctement sur de nombreuses plates-formes informatiques en raison de labsence de logiciels et de matériels standards à toute lindustrie pour léchange des données S.M.A.R.T.

Dun point de vue légal, le terme S.M.A.R.T. ne fait référence quà une méthode de communication entre les capteurs électromécaniques internes dun disque dur et lordinateur hôte - donc un fabricant de disque dur peut inclure un capteur pour uniquement un attribut physique et promouvoir ensuite le produit comme compatible S.M.A.R.T. Par exemple, un fabricant peut déclarer supporter la technique S.M.A.R.T. mais ne pas inclure de capteur de température, capteur dont le consommateur est raisonnablement en droit dattendre la présence, étant donné que la température est un paramètre crucial dans la prévision des défaillances (la fiabilité est typiquement proportionnelle à linverse de la température).

Il se peut que certaines cartes mères compatibles S.M.A.R.T. ou certains logiciels associés ne puissent pas communiquer avec certains disques certifiés S.M.A.R.T. en fonction du type dinterface. Peu de disques externes connectés via USB ou FireWire envoient correctement les données S.M.A.R.T. par lintermédiaire de ces interfaces. Étant donné le grand nombre de manières de connecter un disque dur (SCSI, Fibre Channel, ATA, SATA, etc.), il est difficile de savoir à lavance si les rapports S.M.A.R.T. fonctionneront correctement ou pas.

Même avec le disque dur et linterface supportant S.M.A.R.T., les données peuvent ne pas être transmises correctement au système dexploitation de lordinateur. Certains contrôleurs de disques peuvent dupliquer toutes les opérations décriture sur un deuxième disque de sauvegarde en temps réel. Cette technique est connue sous le nom de RAID 1 ou RAID mirroring car le second disque est une image miroir du premier. Cependant, de nombreux programmes conçus pour analyser les changements de comportement du disque et pour transmettre les alertes S.M.A.R.T. à lutilisateur ne fonctionnent pas quand le système est configuré en RAID, parce que, dans les conditions normales de fonctionnement de larchitecture RAID, lordinateur nest pas autorisé à « voir » (ou à accéder directement) les différents disques physiques, il est seulement autorisé à « voir » les volumes logiques à travers le sous-système RAID.

Sur la plate-forme Windows, de nombreux programmes conçus pour surveiller et transmettre les informations S.M.A.R.T. ne fonctionnent quà partir dun compte administrateur.

Un autre problème fondamental du système S.M.A.R.T. est quil réduit les performances et pour cette raison il est désactivé par défaut dans le BIOS de beaucoup de cartes mères.

Attributs

Chaque constructeur de disque définit un ensemble dattributs et détermine les valeurs de seuil qui ne devraient pas être dépassées dans des conditions normales de fonctionnement. Les valeurs des attributs séchelonnent de 1 à 253 (1 représentant le pire cas et 253 le meilleur). En fonction du constructeur, une valeur comprise entre 100 et 200 est souvent choisie comme valeur « normale ». Les constructeurs suivants supportent un ou plusieurs attributs S.M.A.R.T dans leurs produits : Samsung, Seagate, IBM, Hitachi, Fujitsu, Maxtor, Western Digital. Ces constructeurs ne saccordent pas obligatoirement ni sur une définition précise des attributs, ni sur leurs unités de mesure ; par conséquent, la liste suivante ne devrait être considérée que comme une référence assez générale.

Attributs S.M.A.R.T. connus

Légende
Higher
Une valeur haute est désirée
Lower
Une valeur basse est désirée
Critique Indicateurs potentiels dune panne électromécanique imminente
ID Hex Nom de lattribut Désiré Description
01 0x01 Read Error Rate Indique le taux derreur matérielle lors de la lecture de la surface du disque. Une valeur élevée indique un problème soit avec la surface du disque, soit avec les têtes de lecture/écriture.
02 0x02 Throughput Performance
Higher
Performance générale en sortie du disque. Si la valeur de lattribut diminue, alors la probabilité davoir un problème avec le disque augmente.
03 0x03 Spin-Up Time
Lower
Temps moyen mise en rotation (de zéro RPM ou tour par minute jusquau fonctionnement complet).
04 0x04 Start/Stop Count Décompte des cycles de mise en rotation (démarrage/arrêt).
05 0x05 Reallocated Sectors Count
Lower
Nombre de secteurs réalloués. Quand le disque dur obtient une erreur de lecture/écriture/vérification sur un secteur, il note ce secteur comme réalloué et transfère les données vers une zone réservée spéciale (la zone de réserve). Ce processus est aussi connu sous le nom de remapping et les secteurs réalloués sont appelés remaps. Cest pourquoi, sur les disques modernes, on ne peut pas voir de « mauvais » blocs lorsquon teste la surface du disque (tous les mauvais secteurs sont cachés dans les secteurs réalloués). Cependant, plus il y a de secteurs réalloués, plus la vitesse décriture/lecture diminue.
06 0x06 Read Channel Margin Marge du canal pendant la lecture des données. La fonction de cet attribut nest pas spécifiée.
07 0x07 Seek Error Rate N/A N/A Taux derreurs daccès des têtes magnétiques. Sil y a une défaillance du système de positionnement mécanique, un endommagement du servomécanisme ou une dilatation thermique du disque dur, le nombre derreurs de recherche augmente. Une augmentation du nombre derreurs daccès indique que létat de la surface du disque et le sous-système mécanique se dégradent.
08 0x08 Seek Time Performance
Higher
Performance moyenne des opérations daccès des têtes magnétiques. Si cet attribut diminue, cest un signe de problèmes avec le sous-système mécanique.
09 0x09 Power-On Hours (POH)
Lower
Nombre dheures de fonctionnement. La valeur brute de cet attribut indique le nombre total dheures (ou de minutes ou de secondes, selon le constructeur) de fonctionnement du disque. Quand cette valeur se rapproche du niveau critique (durée de vie du disque donnée par le constructeur), le temps moyen entre deux pannes ou MTBF tend vers zéro. Cependant, en réalité, même si le MTBF chute à zéro, cela nimplique pas obligatoirement que le disque va cesser de fonctionner normalement.
10 0x0A Spin Retry Count
Lower
Nombre dessais de relancement de la rotation. Cet attribut stocke le nombre total dessais de relancement de la rotation pour atteindre la pleine vitesse de fonctionnement (à condition que la 1re tentative soit un échec). Une augmentation de cet attribut est signe de problèmes au niveau du sous-système mécanique du disque dur.
11 0x0B Recalibration Retries
Lower
Cet attribut indique le nombre de fois quune recalibration a été relancée (à condition que la 1re tentative soit un échec). Une augmentation de cet attribut est signe de problèmes au niveau du sous-système mécanique du disque dur.
12 0x0C Device Power Cycle Count Cet attribut indique le nombre total de cycles marche/arrêt complets du disque dur.
13 0x0D Soft Read Error Rate
Lower
Taux derreurs non corrigées transmises au système dexploitation.
183 0xB7 SATA Downshift Error Count Attribut pour Western Digital et Samsung.
190 0xBE Airflow Temperature (WDC)
Lower
Température de lair sur les disques Western Digital (la même que la température (C2), mais la valeur de lattribut est inférieure de 50).
193 0xC1 Load/Unload Cycle
Lower
Nombre de cycles de chargement/déchargement dans la position la tête magnétique est posée.
194 0xC2 Temperature
Lower
Température interne actuelle.
195 0xC3 Hardware ECC Recovered N/A N/A Temps entre les erreurs corrigées par code correcteur (?) (augmente et diminue, une faible valeur est probablement mauvais).
196 0xC4 Reallocation Event Count
Lower
Nombre dopérations de réallocation (remap). La valeur brute de cet attribut est le nombre total de tentatives de transfert de données entre un secteur réalloué et un secteur de réserve. Les essais fructueux et les échecs sont tous comptés au même titre.
197 0xC5 Current Pending Sector Count
Lower
Nombre de secteurs « instables » (en attente de réallocation). Quand des secteurs instables sont lus avec succès, cette valeur est diminuée. Si des erreurs se produisent à la lecture dun secteur, le disque va tenter de récupérer les données, puis de les transférer vers la zone de réserve et va marquer le secteur comme réalloué.
198 0xC6 Uncorrectable Sector Count
Lower
Nombre total derreurs incorrigibles à la lecture/écriture dun secteur. Une augmentation de cette valeur indique des défauts de la surface du disque et/ou des problèmes avec le sous-système mécanique.
199 0xC7 UltraDMA CRC Error Count
Lower
Nombre derreurs dans le transfert de données via le câble dinterface comme déterminé par lICRC (Interface Cyclic Redundancy Check, littéralement vérification des redondances cycliques de linterface).
200 0xC8 Write Error Rate /
Multi-Zone Error Rate
Lower
Nombre total derreurs à lécriture dun secteur.
201 0xC9 Soft Read Error Rate /
Soft Read Error Rate
Lower
Nombre total derreurs off-track.
220 0xDC Disk Shift
Lower
Distance de laquelle le disque est déplacé par rapport à son axe de rotation (habituellement à cause des chocs). Lunité de mesure est inconnue.
221 0xDD G-Sense Error Rate
Lower
Nombre derreurs résultant de chocs ou de vibrations externes.
222 0xDE Loaded Hours Temps de fonctionnement passé en charge de données (mouvement de larmature des têtes magnétiques).
223 0xDF Load/Unload Retry Count Nombre de fois que la tête a changé de position.
224 0xE0 Load Friction
Lower
Résistance causée par la friction dans les parties mécaniques en cours de fonctionnement.
226 0xE2 Load 'In'-time Temps total de charge sur lactuateur des têtes magnétiques (temps qui nest pas passé en zone de positionnement fixe).
227 0xE3 Torque Amplification Count
Lower
Nombre de tentatives de compensation des variations de la vitesse de rotation du plateau.
228 0xE4 Power-Off Retract Cycle
Lower
Nombre de fois que larmature magnétique a été rétractée automatiquement suite à une coupure dalimentation.
230 0xE6 GMR Head Amplitude Amplitude des « à-coups » (amplitude du mouvement davance et de recul répétitif de la tête)

Logiciels

De nombreux logiciels adaptés à chaque système dexploitation permettent aux utilisateurs de surveiller létat des disques durs grâce à linterface S.M.A.R.T. et ainsi prédire les probabilités dune défaillance en enregistrant les variations de la valeur des attributs. Ces logiciels peuvent même parfois faire la distinction entre une dégradation graduelle (représentant lusure normale) et un changement soudain (ce qui peut indiquer un problème plus grave).

Références

  1. (en)Get S.M.A.R.T. for reliability [PDF].
  2. (en)How does S.M.A.R.T. work? [PDF].
  3. pctechguide : « Lacceptation de la technique PFA par lindustrie a finalement conduit le système SMART à devenir le standard industriel en tant quindicateur de prévision de la fiabilité […]. »

Liens externes


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Self-Monitoring, Analysis and Reporting Technology de Wikipédia en français (auteurs)

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

  • Self-Monitoring, Analysis, and Reporting Technology — Self Monitoring, Analysis, and Reporting Technology, or S.M.A.R.T. (sometimes written SMART), is a monitoring system for computer hard disks to detect and report on various indicators of reliability, in the hope of anticipating… …   Wikipedia

  • Self-monitoring, analysis and reporting technology — Exemple d attributs S.M.A.R.T. Self Monitoring, Analysis, and Reporting Technology, ou S.M.A.R.T., (littéralement Technologie d Auto surveillance, d Analyse et de Rapport) est un système de surveillance du disque dur d un ordinateur. Il permet de …   Wikipédia en Français

  • Self-Monitoring Analysis and Reporting Technology — Self Monitoring Analysis and Reporting Technology,   SMART System …   Universal-Lexikon

  • Self-Monitoring Analysis and Reporting Technology — Das Self Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T.), zu deutsch System zur Selbstüberwachung, Analyse und Statusmeldung, ist ein Industriestandard, der in Computerfestplatten eingebaut wird. Es ermöglicht das permanente …   Deutsch Wikipedia

  • Self-Monitoring, Analysis and Reporting Technology — Das Self Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T.), zu deutsch System zur Selbstüberwachung, Analyse und Statusmeldung, ist ein Industriestandard, der in Computerfestplatten eingebaut wird. Es ermöglicht das permanente …   Deutsch Wikipedia

  • Self-Monitoring, Analysis, and Reporting Technology — S.M.A.R.T. (англ. Self Monitoring Analysing and Reporting Technology)  технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя. Содержание 1 История 2 Описание 3 …   Википедия

  • Self — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. Sur les autres projets Wikimedia : « Self », sur le Wiktionnaire (dictionnaire universel) Le mot anglais self signifie la personnalité, l… …   Wikipédia en Français

  • Advanced Technology Attachment — ATA/ATAPI Stiftleiste (am Host bzw. am Peripheriegerät) 80 und 40 adrige ATA/ATAPI Kabel, zum Verbinden von Host zu Gerät ATA (Advanced Technology Attachment with Packet …   Deutsch Wikipedia

  • Advanced Technology Attachment Packet Interface — ATA/ATAPI Stiftleiste (am Host bzw. am Peripheriegerät) 80 und 40 adrige ATA/ATAPI Kabel, zum Verbinden von Host zu Gerät ATA (Advanced Technology Attachment with Packet …   Deutsch Wikipedia

  • Predictive Failure Analysis — (PFA) is a proprietary IBM technology for monitoring the likelihood of hard disk drives to fail. It was introduced in 1992 in IBM 0662 S1x drive (1052 MB Fast Wide SCSI 2 disk at 5400 rpm), and was industry s first such technology.The technology… …   Wikipedia

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/1525590 Do a right-click on the link above
and select “Copy Link”