Outils et méthodes pour surveiller la santé de ses disques durs

On a beau avoir sauvegardé ses donnés chez Crashplan ou Hubic (pour les téméraires), la perte d’un disque dur reste pénible, ne serait-ce que pour se souvenir de ce qu’on avait mis dessus, sans parler de tout retélécharger (tout le monde n’est pas fibré).

Ayant perdu un disque hier soir (il est revenu ce matin, après une nuit d’arrêt du PC qui l’héberge), je me dis que je devrais faire un peu plus attention à la santé de mes HDD, et donc demander quelques conseils.

  • Quel utilitaire conseillez vous pour être prévenu dès qu’un disque commence à faiblir ? (pour l’instant je n’utilise Crystal Disk Info que ponctuellement, je n’ai pas essayé le mode “résident”)

  • Quelqu’un peut-il m’expliquer pourquoi avec les mêmes valeurs des secteurs instables et d’erreurs incorrigibles j’ai un disque qui ressort en “correct” et l’autre en “prudence” ? (le “prudence” est quasi neuf en plus, dois-je m’inquiéter ?)

  • Y a-t-il des trucs à connaître pour mieux interpréter les infos somme toute assez absconses remontées par les outils comme Crystal Disk Info ?

  • Au passage, le disque qui m’a fait une NDE hier n’a plus l’air si mal en point ce matin:

Je vais le changer par précaution (il a presque 5 ans), mais du coup j’ai vraiment du mal à interpréter les infos S.M.A.R.T pour savoir quand il faut changer un disque.

Ceux qui bossent avec des disques dur tous les jours te répondront mieux que moi mais perso, les alertes SMART, c’est de la merde. En barre. Même les données fournies sont débiles: Regarde sur ton WD20EARS, tu as la température actuelle a 112 trucs (sic) et au max, c’est monté a 107… Bien joué Sherlock.

Du coup, y a pas vraiment de solutions, et perso j’ai deux modes de fonctionnement:

Pro: Si un disque dur lâche, poubelle. Éventuellement je bidouille pour que les données soient illisibles si c’est vraiment nécessaire (mais ça prend un temps fou, j’ai un carton plein de disque qu’il faudrait passer au pilon)

Perso: S’il est encore sous garantie, RMA direct. Ça m’a permis de récupérer un 500Go reconditionné.
Sinon, je le laisse 1 ou 2 mois dans un coin et j’essaye de le redémarrer pour éventuellement récupérer les données si nécessaire. Et si il a l’air de redémarrer de manière pérenne, ça sert de stockage temporaire (le dernier, je l’ai mis en array raid et il tourne super… va comprendre)
Et sinon, poubelle/destruction.

Le seul intérêt de SMART est de regarder la température: plus elle est basse, mieux c’est. Attention, la précision n’est pas extraordinaire mais les delta sont assez fiable. Si tu démarre le pc avec un disque dur affichant 25°C et qu’il affiche 35 au bout d’une heure, les 10°C d’augmentation sont assez fiables.

SMART, la techno pour faire peur aux geeks proches de leurs data…

1 « J'aime »

C’est pas ultime, mais tu peux déjà leur foutre des coups de perceuses.
Peut être même que tu as un truc de logistique dans ta boite qui a une perceuse « fixe » (le truc que tu descends à la manivelle) et alors là tu leur amènes ton carton disque et c’est plié en 10 mins max.

Tu sais que le truc du trou pour doubler la taille, ca ne marche que pour les disquettes 3.5", pas pour les disques dur? :slight_smile:

Espièglerie, quand tu nous tiens… :wink:

2 « J'aime »

Je vais pas apporter une expertise vu que l’électronique et la micro-mécanique c’est clairement pas mon domaine.
De mon expérience (ça va faire quand même presque 15 ans que je bidouille de l’informatique de manière perso et pro) l’état SMART c’est comme memtest, quand c’est OK ça veut pas dire tout va bien, par contre que c’est pas OK c’est qu’il y a un soucis.
Pour ce qui est de “lire” un état SMART c’est totalement la galère car chaque constructeur fait le truc à sa sauce et “code” ou pas les données remontées par les capteurs. Il faut donc souvent se fié au résultat “général” donné par l’utilitaire avec lequel tu test ton disque. Sur Windows effectivement CrystalDiskInfo est le plus pratique, sur OSX c’est SMART UTility.
Si tu compare bien tes 2 lignes ne sont pas identiques sur la “valeur brute”, 0 c’est bien 0, mais le E ça indique une valeur.
Il faut aussi voir qu’en fonction des modèles de disque et des controleurs SATA sur lesquels ils sont branchés il n’y aura pas toujours les mêmes tests, ni les mêmes fréquences de test. Ce qui est conseillé sur les NAS par exemple c’est de faire un test long une fois par mois. (par précaution chez mes clients j’en fait aussi un court une fois par semaine)

Sinon pour la destruction, perso j’explose le port IDE/SATA, un coup de pince coupante sur la carte controleur la plupart du temps ça suffit.

J’ai la même expérience avec SMART: j’ai perdu des disques qui étaient affichés comme tout bon.
Par contre une question corollaire: mon NAS me sort par mail tous les mois un rapport de santé des disques durs… Et j’ai aucune idée du crédit que je peux y accorder.

Je pense que tu parle du rapport automatique des Synology. C’est simple tu leurs accorde le même crédit que des test SMART standard, c’est ni plus ni moins la même chose. Ce qui est bien dans l’info SMART affiché par les syno c’est le “historique” qui permet de voir si un disque augmente énormément d’un mois sur l’autre ses secteurs défectueux.

Et sinon, la technique de l’aimant c’est possible ou pas ?

je pense qu’elle est en fahrenheit en bas et en celcius en haut
10+°F ca correspond a 4+°C en gros

Mouais. J’ai utilisé plusieurs mois un pc qui plantait des le BIOS avec une erreur SMART, tu fais tout les tests de surface et tout, aucun soucis mais toujours l’erreur smart qui n’empêchait pas l’utilisation.
J’ai viré le warning « ne pas démarrer si erreur SMART » et le disque dur n’a jamais planté.

Possible oui, fiable, pas sur. En fait, t’as aucun moyen de contrôler si tu as bien tout effacé s’il est cassé, ca reste donc plus simple de le passer au pilon.

Ouais enfin que ça soit des °F ou des topinambours, ça change rien au fait que la valeur actuelle est plus haute que la valeur max, ce qui est complètement con :slight_smile:

Les degrés topinambours, une nouvelle unité de mesure de la température!!

1 « J'aime »

Ca depend surtout de ce qu’ils appellent le max et si c’est lié a une durée ou pas. Genre moyenne max sur 24h.

La grosse blague du Smart & co, c’est que les constructeurs n’exposent pas les mêmes données ou alors pas de la même manière, avec de seuils de tolérance différents = ça donne des trucs illisibles, c’est super :confused:

Ben ouai ça serait trop simple si il y avait une sorte d’harmonisation ou des règles à respecter, genre comme les touches de boot pour rentrer dans le BIOS/UEFI :anger:

3 « J'aime »