remplacement disque HS

Status
Not open for further replies.

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Bon courage! ;-)
(Mais ça vaut le coup et après on est aussi plus à l'aise pour poser des questions je pense)
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Pour info, j'ai regardé dans la doc et l'interface concernant le remplacement d'un disque. J'utilise la version 9.10 de FreeNAS mais il semblerait (après avoir vérifié dans la doc rapidement) que c'est la même procédure avec la version 9.2.0 donc c'est pratique.

Dans "Storage", je clique sur le volume et dans les boutons en bas, je clique sur "Volume status":
upload_2018-7-7_11-18-40.png


Là j'ai la liste des disques rattachés au volume et lorsque je clique sur un des disques, toujours en bas, j'ai trois boutons "Edit Disk", "Offline" et "Replace" (et cela quelque soit le status du disque (là il est ONLINE dans mon cas):

upload_2018-7-7_11-19-13.png
 

Attachments

  • upload_2018-7-7_11-18-55.png
    upload_2018-7-7_11-18-55.png
    400.6 KB · Views: 294

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Pour revenir un peu plus en détail sur certains concepts abordés:

  • SCRUB: c'est la manière qu'utilise FreeNAS (enfin ZFS) pour vérifier l'intégrité du volume (en vérifiant les checksums et tout et tout) selon le niveau de redondance (RAIDz) utilisé.
    En gros, il va "scanner" toutes les données du disque pour vérifier qu'elles sont bien correctes. Cela peut donc prendre de longtemps à très longtemps selon la taille du volume (et la quantité de données).

  • Resilver: c'est la reconstruction du volume suite à une défaillance et un changement de disque. C'est en quelque sorte un SCRUB amélioré puisqu'il va scanner le disque et reconstruire les données manquantes.
    En gros, on fait juste la distinction entre un SCRUB qui est une action routinière de vérification et un resilver qui est une action particulière en cas de défaillance d'un disque (mais le processus est similaire, on s'attend juste à ce que le SCUB ne répare rien (ou presque) alors qu'un resilver reconstruit un disque).

  • SMART: contrairement aux deux concepts précédents qui sont liés à FreeNAS et ZFS, SMART et les tests associés sont liés au matériel (plus particulièrement aux disques durs). SMART ce sont tout d'abord des informations données par le disque sur sa santé physique. Ensuite on peut aussi exécuter des tests (qui seront initiés par l'OS mais réalisé par le disque lui même). On distingue différents tests mais principalement:
    - Short test: test court, qui dure en gros 5 minutes et qui va faire une vérification basique du disque
    - Long test ou extended test: test long qui va vérifier la surface du disque (donc selon la taille du disque celui-ci peut prendre plusieurs heures)

Donc au niveau de FreeNAS, il faut s'assurer que régulièrement un SCRUB est effectué afin de s'assurer de l'intégrité des données. Typiquement, une fois par mois c'est bien.
Le resilver se fait automatiquement lors d'un changement/remplacement de disque.

Ensuite au niveau des tests SMART, une bonne pratique est de programmer:
- un test short pour chaque disque une fois par semaine
- un test long pour chaque disque une fois par mois
afin de détecter d'eventuelles défaillances avant que cela ne soit trop tard.

Une bonne pratique avec les tests SMART est de programmer un envoi de mail régulièrement avec le résultat des informations SMART. Il y a des scripts pour cela dans le forums, en voici un exemple proposé par un des membres (Spearfoot).




Pour résumer, voici une liste de bonnes pratiques à mettre en place avec FreeNAS:
- s'assurer qu'un SCRUB est programmer une fois par mois au moins
- s'assurer que les tests SMART short sont exécutés une fois par semaine
- s'assurer que les tests SMART long sont exécutés une fois par mois
- s'assurer que des sauvegardes (si possibles externes) sont faites au moins pour les données critiques
- identifier les disques physiquement avec le numéro de série (genre un petit sticker sur la partie visible du disque avec les 4 derniers chiffres) et ne pas se fier à la dénomination adax ou dax de FreeNAS qui peut changer. Ca facilite l'identification pour changer un disque!
- mise en veille des disques (ou éteindre le NAS): à éviter si l'on souhaite maximiser la longévité des disques

- en option, on peut aussi utiliser les snapshots en plus (mais en aucun cas cela ne remplace les sauvegardes!!!) c'est parfois bien pratique
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Pour compléter sur les informations SMART.

On peut interroger les disques manuellement pour avoir les informations SMART, cela se fait en ligne de commande avec la commande:

smartctl -a /dev/da1

On remplacera le da1 selon le système. Cela dépend de comment apparaissent les disques (ce que l'on peut voir avec la commande dmesg mais ca produit une liste assez longue et faut chercher dedans un peu mais sinon dans FreeNAS dans Storage-->View disks), en da1 ou ada1.
Ensuite on changera le numéro selon les disques.
Chez moi da0 est le disque de boot puis da1 à da6 sont les disques du volume.


Pour information c'est ce que le script donné en lien dans le post ci-dessus fait de manière automatisée avec une mise en forme pour l'envoyer par mail ensuite.

L'option -a permet d'avoir tous les détails.

  • La premère partie:
    === START OF INFORMATION SECTION ===
    contient des informations sur le disque (modèle, numéro de série, capacité, ...).
  • La seconde:
    === START OF READ SMART DATA SECTION ===
    contient des informations sur les tests (durée d'exécution, dernier statut, ...) mais également les résultats de tests en plusieurs sections:

  • Un premier tableau
    Vendor Specific SMART Attributes with Thresholds:
    avec les informations importantes, on va revenir dessus un peu plus bas.
  • Un deuxième tableau avec la liste des tests SMART effectuées (long, short, ...) et leurs résultats respectifs. Ce dernier tableau est intéressant pour voir si la programmations des tests s'effectue correctement.
La commande smartctl peut s'exécuter aussi avec l'option -A à la place de -a.
Dans ce cas, on obtient juste le premier tabeau "Vendor specific SMART attributes" qui est celui qui est le plus intéressant (en tout cas au quotidien je dirai).

Voici un exemple de ce que ça donne:


smartctl 6.5 2016-05-07 r4318 [FreeBSD 10.3-STABLE amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 080 064 044 Pre-fail Always - 101660055
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 39
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 083 060 045 Pre-fail Always - 223237843
9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 10693 (214 23 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 39
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 068 058 040 Old_age Always - 32 (Min/Max 28/32)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 29
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 128
194 Temperature_Celsius 0x0022 032 042 000 Old_age Always - 32 (0 14 0 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 10679 (76 221 0)
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 14424292441
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 98469075732


On a donc differents attributs (première et deuxième colonne, ID# et ATTRIBUTE_NAME) avec des valeurs (la dernière colonne RAW_VALUE).

Ceux qui sont importants à surveiller:

  • 5 Reallocated_Sector_Ct: nombre de secteurs réalloués: selon le degré de tolérance propre à chacun, certains changeront de disque dès que cet attribut dépasse 0, d'autre attendront un peu. Je serai plutôt de cette deuxième catégorie: si cet attribut reste inférieur à la dizaine sans augmentation régulière, je surveille et je vois ensuite.
  • 193 Load_Cycle_Count: nombre de cycle de "parkage des tête": à surveiller surtout pour les disques Western Digital si le timer n'a pas été désactivé. En gros, les disques WD ont un timer par défaut à 8 secondes qui parque les têtes après 8 secondes d'inactivité. Ce qui n'est pas bon pour les disques et les fait vieillir prématurément (je simplifie un peu ce sujet car c'est un peu plus complexe que ça).
  • 194 Temperature_Celsius: température du disque: il faut veiller à maintenir celle-ci en dessous de 40°C absolument si l'on souhaite maximiser la longévité des disques (sans rentrer dans les détails, une étude montre qu'effectivement la température a une grande influence sur la longévité des disques).
  • 197 Current_Pending_Sector et 198 Offline_Uncorrectable: secteurs en "attente" et secteurs irrécupérables. Le "en attente" est pour confirmer qu'il est irrécupérable donc c'est pas bon! ;-)
    Ces deux attributs doivent être à 0 idéalement. Et a priori, un secteur passe en "pending" avant de passer en "offline". Tout comme l'attibut 5, selon son degré de tolérance, à surveiller étroitement.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Voilà, je pense avoir fait le tour (il manque peut-être quelques détails mais j'ai essayé de trouver un bon équilibre entre trop et pas assez de détails... ;-)
S'il y a des questions, n'hésite pas.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Ah oui et une autre question que j'avais:
- y'a-t-il une raison pour rester sur la version 9.2.0?

Sans non plus passer sur la version 11, mais à la 9.10 par exemple, ça serait peut-être bien.
D'ailleurs, quel est le matériel utilisé actuellement?
 
Status
Not open for further replies.
Top