Problème secteurs de disque illisibles/incorrigibles

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Bonjour à tous,

Depuis deux jours, TrueNAS (Scale, ver. 23.10.2) m'envoie les deux mêmes messages d'alerte concernant un des disques installés dans mon serveur :

Device: /dev/sdb [SAT], 1 Currently unreadable (pending) sectors.​

Device: /dev/sdb [SAT], 1 Offline uncorrectable sectors.​


Ce qui est curieux, c'est que les rapports S.M.A.R.T. n'annoncent aucune erreur, idem pour ZFS. La santé de mes disques est affichée comme bonne.
J'ai cru comprendre qu'un tel message n'annonçait pas la mort imminente du disque mais ce que je n'ai pas compris c'est la méthode pour corriger ce souci (une histoire d'overwriting ?).

Je précise que ce disque est dans une pool qui ne contient qu'un seul vdev, composé de 4 x 2 To en RAIDz1.

Quelqu'un peut-il m'expliquer la démarche à suivre pour ne plus avoir ce message d'erreur ? Est-ce dangereux pour ma pool ?

D'avance merci.
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Bonjour,

Ce qui est curieux, c'est que les rapports S.M.A.R.T. n'annoncent aucune erreur
Ca c'est étrange...
Comment sont connectés les disques? Sur quel type de contrôleur?
Ca peut aussi être pratique de poster le détail du matériel que tu as....
Peux-tu poster le résultat de smartclt (dans un terminal smartctl -a /dev/sdb et utilise de préférence avec les balises de code dans ton message pour que ce soit lisible)?

1 secteur offline c'est pas top quand même...
Sachant que tu es en RAIDz1, ça veut dire que tu peux supporter un disque de défaillance... Perso, ça me stresserait un peu (et dans ce cas, je préférerai être en RAIDz2 quoi! :tongue: ).
Tout dépend aussi de ta stratégie de sauvegarde. Si tu n'en as pas alors là effectivement ça ajoute au stress. :-D

ce que je n'ai pas compris c'est la méthode pour corriger ce souci
Alors pour le secteur offline, y'a rien à corriger car en gros, c'est mort, tu as un secteur qui n'est plus utilisable sur ton disque et voilà. Heureusement, les disques ont généralement une provision de secteurs en rab'. Si tu souhaites conserver le disque, alors je te conseille de fortement surveiller cet attribut SMART (qu'on retrouver souvent dans le résultat de smartctl sous l'attribut 198 Offline_Uncorrectable). Et si jamais il se met à augmenter alors il faudra rapidement changer le disque.
Pour certaines personnes, le fait d'avoir déjà un secteur offline est une raison suffisante pour changer de disque, cela dépend un peu de la sensibilité de chacun.
Par ailleurs, si le disque est sous garantie, alors c'est souvent un cas couvert par la garantie et il est recommandé de procéder au retour du disque.

Pour l'autre erreur (currently unreadable (pending) sector), il s'agit d'une erreur rencontrée par le disque mais qui n'est pas confirmée encore (car par exemple elle s'est produite lors d'une opération de lecture et donc difficile de savoir si le secteur est réellement endommagé ou pas). Elle sera confirmée (ou non) lorsque le secteur en question sera écrit. Mais il se peut que cela ne se produise jamais...
On peut alors éventuellement forcer une écriture sur ce secteur (soit avec badblocks en mode destructif sur tout le disque et c'est peut-être un peu radical soit avec d'autres commandes où on va venir écrire sur ce secteur en particulier mais c'est un peu plus complexe) pour confirmer ou pas le problème.

De manière générale, tout va dépendre de la criticité des données sur le disque. C'est surtout ça qui va motiver le remplacement éventuel du disque dès ces premiers symptômes ou pas.


idem pour ZFS
Donc pas nécessairement surprenant que ZFS ne te donne aucune erreur.
Pour le secteur défectueux, il est bien identifié par le disque donc ce secteur ne sera jamais proposé à ZFS.
Pour le secteur en attente de confirmation, si ça se trouve encore aucune donnée n'a été écrite à cet endroit. Après si ZFS venait à écrire sur ce secteur et qu'il s'avère être effectivement défectueux, alors il pourrait y avoir une erreur de checksum dans ZFS (notamment dans le résultat de zfs status dans le volume en question).


Quelqu'un peut-il m'expliquer la démarche à suivre pour ne plus avoir ce message d'erreur ?
Je crois qu'on peut supprimer le message dans les notifications de l'interface web.... mais je suis pas sûr.
Toutefois c'est p'tet pas forcément une bonne chose de ne plus avoir le message... car c'est pas quelque chose que tu ne veux plus voir car, au contraire, tu veux pouvoir le surveiller pour t'assurer que ça n'augmente pas.

Est-ce dangereux pour ma pool ?
Oui et non... mais globalement non si tu as une redondance.
Non, si tu n'as pas encore de données sur ce secteur, alors aucun problème.
Oui, si jamais tu as des données et que ces dernières sont illisibles... Mais si tu as un volume en RAIDz1 ou 2 alors pas de problème.
Par contre, là ou ça peut aussi potentiellement devenir dangereux c'est si ce nombre augmente... Donc là encore, au niveau de ton volume de données, si tu as une redondance, pas de problème. Mais à terme ton disque deviendra inutilisable.
C'est justement aussi l'intérêt de TrueNAS (ou des système RAID) d'assurer une redondance en cas de défaillance afin qu'il n'y ait pas d'impact su les données stockées.
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Merci beaucoup pour toutes ces informations. Je vais essayer de te répondre dans l'ordre.

Côté matériel, c'est une pool composée de 4 HDD de 2 To chacun, de la marque Seagate (ils ne sont pas tous identiques, il y a un Constellation, deux Barracuda et un Desktop si je me souviens bien). Ils sont branchés directement en SATA sur la carte mère. Pour la garantie, on peut oublier, je les ai eu d'occasion (oui, je sais, ce n'est pas l'idéal clairement...).

Pour la commande smartctl, c'est curieux, elle ne fonctionne pas. Le shell me répond "command not found". Si je veux pouvoir surveiller le nombre de secteurs défaillants, je suppose qu'il faut que j'ai accès à cette commande ? Y-a-t-il un nombre à ne pas dépasser avant le changement de disque ou ZFS m'informera de lui-même le moment ou il faudra le changer ?

Côté data, ce qu'il y a sur ces disques, j'y tiens... (c'est la raison pour laquelle j'ai monté ce petit serveur avec une pool à un disque de parité). Il y a des photos, films, des documents administratifs et de mes recherches à l'Université. Des choses importantes donc (pour certains de ces documents critiques, j'ai une solution de backup mais pas pour tout).
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Côté data, ce qu'il y a sur ces disques, j'y tiens...
Alors dans ce cas, il faut parer au plus urgent: j'espère que tu as des sauvegardes à jour, comme ça tu es tranquille.
Ensuite, je serai toi, j'envisagerai le remplacement du disque au plus vite (ou relativement plus vite).
Voilà...

Pour le reste:
Pour la garantie, on peut oublier, je les ai eu d'occasion (oui, je sais, ce n'est pas l'idéal clairement...).
C'est pas forcément un problème par contre as-tu fait un rodage des disques (et ça peut importe qu'ils soient d'occas' ou neufs)? C'est généralement conseillé, avant d'y déposer des données sensibles.

la commande smartctl, c'est curieux, elle ne fonctionne pas
Ah?!?
Bon, j'ai pas fait de coquille dans la commande.... :tongue: Dommage, ça aurait été le plus simple!
Est-ce que le service est activé? Je suppose que oui, sinon tu n'aurais pas l'alerte...
Et dans le terminal, si tu commences à taper smart et qu'en suite tu tapes sur la touche TAB, que te propose-t-il? (il devrait compléter avec smartctl ou afficher une liste de commandes commençant par smart)
Je pencherai pour une coquille, vérifie bien la syntaxe. Ou sinon peut-être: tu es bien root sur le terminal que tu utilises?

Il faut réussir à trouver pourquoi smartctl n'est pas installée... C'est pas normal et c'est un outil très important pour la surveillance des disques. Je connais pas TrueNAS SCALE mais ça m'étonnerait qu'il ne soit pas installé par défaut?!


Y-a-t-il un nombre à ne pas dépasser avant le changement de disque ou ZFS m'informera de lui-même le moment ou il faudra le changer ?
Le nombre à ne pas dépasser est celui que tu te fixeras en gros... Comme je le disais, ça va dépendre de ta "sensibilité" (qui va dépendre probablement de la criticité des données stockées). Le service SMART t'informes, ZFS lui ne te dira rien (sauf en cas d'erreur détectée), c'est donc à toi de voir quel est le seuil que tu sélectionnes.
Perso, sur mon serveur principal, si je vois que j'ai 1 secteur défectueux.... je vais envisager le changement du disque assez rapidement (peut-être pas immédiatement mais quand même), tout en surveillant la valeur. Sur mon serveur de backup, là ça sera peut-être un peut moins sensible.
Dans les deux cas, mes volumes sont en RAIDz2.

(pour certains de ces documents critiques, j'ai une solution de backup mais pas pour tout)
J'espère que la solution de backup que tu as est pour les données critiques... :tongue: au moins.
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Etant donné que ça ne fait que 10 jours que le serveur est en route, je n'ai que 300 go de DATA déposée sur cette pool. Mais encore une fois, certain documents ne sont qu'ici (notamment les photos). Pour le remplacement du disque il me suffirait simplement d'éteindre le serveur, échanger avec un bon disque et rallumer le serveur ? J'aurai la possibilité de reconstruire la pool avec le nouveau disque une fois TrueNAS relancé ?

En bon débutant que je suis, je n'ai pas la moindre idée de ce qu'est un rodage de disque ... (learning the hard way...).

Pour la commande smartctl, j'ai bien fait attention à la syntaxe. J'ai même cherché ailleurs sur Google pour être sûr de la commande mais ça ne donne rien. En tapant simplement "smart" puis TAB, ça ne donne rien non plus. Qu'entends tu par connecté en root ? Je suis connecté sur le portail web de TrueNAS Scale en "admin" comme username :confused:

Je précise que les SMART test automatiques se font correctement visiblement, je peux même aller les checker individuellement dans l'onglet Storage/disks/Smart test results.
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Bon. J'ai commandé un disque Seagate (simple Barracuda) neuf cette fois-ci, en remplacement de celui-ci, par prévention. Si j'ai bien compris, à l'heure actuelle ma pool n'est pas en danger du fait du RAIDz1, mais ce message d'erreur semble annoncer "le début de la fin" de ce disque. J'ai également trouvé sur le site de TrueNAS le guide complet de remplacement d'un disque défaillant sur SCALE. Je m'occupe de ça dés réception du nouveau disque.

Par ailleurs, pour l'avenir je suis un petit peu inquiet de mon impossibilité d'accéder à cette commande smartctl. Quelqu'un aurait-il des infos pour la rétablir/y accéder ?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Pour le remplacement du disque il me suffirait simplement d'éteindre le serveur, échanger avec un bon disque et rallumer le serveur ?
Oui et non mais tu sembles avoir trouvé la réponse d'après ton post suivant... Le meilleur endroit c'est la documentation de SCALE. C'est probablement ce que tu as trouvé mais dans le doute.

En bon débutant que je suis
Mais il n'est jamais trop tard... :smile:
T'es-tu un peu documenté sur TrueNAS?
As-tu lu les recommandations HW (une version française est disponible), ça permet de donner un bon point de départ je pense pour se poser des question et approfondir.

je n'ai pas la moindre idée de ce qu'est un rodage de disque
Une bonne pratique est de roder ton matériel avant de l'utiliser en production (c'est à dire avec des données sensibles).
Dans ce cas là on parle souvent du CPU, de la RAM et des disques durs.
Pour le CPU, on va principalement réaliser un stress test pour voir comment il se comporte. Généralement sur quelques heures (ou plus si on est joueur et qu'on a le temps).
Pour la RAM, l'outil de prédilection est memtest86 qui permet de tester la RAM de manière approfondie (qu'elle soit ECC ou non).
Quant aux disques durs, une procédure communément utilisée dans le forum (avec des variation) c'est un test SMART étendu, une ou plusieurs passe avec badblocks suivi d'un nouveau test SMART étendu.
badblocks est un outils (en ligne de commande) pour tester la surface d'un disque (en lecture seule ou en écriture (donc "destructif" au sens où les données sur le disque seront supprimées) et c'est généralement à ce mode que l'on fait référence, les tests SMART étant en lecture seule).
Ce rodage peut prendre longtemps (une demi-journée) à très longtemps (deux semaines), selon la taille des disques.

Qu'entends tu par connecté en root ?
Avec quel utilisateur est-tu connecté au terminal de TrueNAS? Si tu n'es pas connecté avec l'utilisateur root, c'est peut-être normal que tu n'aies pas accès à smartctl? Ne connaissant pas SCALE, je sais pas trop en fait! :-O
Pour accéder à TrueNAS, je te conseille de mettre en place un accès SSH par terminal (avec Putty par exemple), c'est plus agréable que depuis l'interface web pour la ligne de commande. De plus, je ne sais pas si depuis le terminal de l'interface web, l'affichage des commandes (avec TAB) fonctionne... Et pareil, je ne sais pas si l'utilisateur admin a les privilèges root...

Je précise que les SMART test automatiques se font correctement visiblement, je peux même aller les checker individuellement dans l'onglet Storage/disks/Smart test results.
C'est pour cela aussi qu'il serait suprenant que tu n'aies pas la commande smartctl d'installée, car il ne pourrait pas t'afficher les résultats. Donc je pense qu'il s'agit juste de trouver comment accéder à cette commande/outil.

Si j'ai bien compris, à l'heure actuelle ma pool n'est pas en danger du fait du RAIDz1
Tout à fait.

ce message d'erreur semble annoncer "le début de la fin" de ce disque
Alors c'est pas forcément obligé mais ce sont des signes annonciateurs qui ne sont généralement pas bons.

Je m'occupe de ça dés réception du nouveau disque.
Alors à la réception du nouveau disque, je te conseille, avant toute chose, de procéder à un rodage.
Comme ça ça te permettra également d'écarter tout problème initial que le disque pourrait avoir. Et si effectivement il a un problème, tu le découvriras pendant le rodage et tu pourras faire une demande d'échange (le disque étant alors encore sous garantie).

Quelqu'un aurait-il des infos pour la rétablir/y accéder ?
Pas vraiment mais j'essayerai d'abord de mettre en place un accès SSH (plutôt que de le faire par l'interface web) pour la ligne de commande.
Une fois cet accès mis en place, alors tu verras ce que ça donne.
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Donc en effet, je n'étais pas connecté au shell avec l'utilisateur root. J'ai réussi à switcher et la commande smartctl fonctionne correctement.
Comme demandé plus haut, voici le résultat donné pour la commande smartctl -a /dev/sdb pour mon disque affichant un secteur défectueux :

Code:
=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1ER164
Serial Number:    W4Z0VQS8
LU WWN Device Id: 5 000c50 07cea0935
Firmware Version: CC25
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database 7.3/5528
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Mar 13 23:29:51 2024 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (   80) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 207) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x1085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   099   006    Pre-fail  Always       -       50904280
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       85
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   086   060   030    Pre-fail  Always       -       425138846
  9 Power_On_Hours          0x0032   030   030   000    Old_age   Always       -       61939
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       85
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   086   086   000    Old_age   Always       -       14
188 Command_Timeout         0x0032   100   096   000    Old_age   Always       -       5 5 5
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       110
190 Airflow_Temperature_Cel 0x0022   076   041   045    Old_age   Always   In_the_past 24 (1 218 24 23 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       22
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       682467
194 Temperature_Celsius     0x0022   024   059   000    Old_age   Always       -       24 (0 16 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       57177h+07m+27.983s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       262282007465
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       48093322399140

SMART Error Log Version: 1
ATA Error Count: 14 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 14 occurred at disk power-on lifetime: 15873 hours (661 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 0e 13 00  Error: UNC at LBA = 0x00130ecf = 1248975

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 31 cf 0e 13 40 00      00:05:07.973  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:05:07.887  READ LOG EXT
  60 00 32 ce 0e 13 40 00      00:05:03.473  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:05:03.387  READ LOG EXT
  60 00 33 cd 0e 13 40 00      00:04:58.973  READ FPDMA QUEUED

Error 13 occurred at disk power-on lifetime: 15873 hours (661 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ce 0e 13 00  Error: UNC at LBA = 0x00130ece = 1248974

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 32 ce 0e 13 40 00      00:05:03.473  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:05:03.387  READ LOG EXT
  60 00 33 cd 0e 13 40 00      00:04:58.973  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:58.887  READ LOG EXT
  60 00 34 cc 0e 13 40 00      00:04:54.473  READ FPDMA QUEUED

Error 12 occurred at disk power-on lifetime: 15873 hours (661 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cd 0e 13 00  Error: UNC at LBA = 0x00130ecd = 1248973

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 33 cd 0e 13 40 00      00:04:58.973  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:58.887  READ LOG EXT
  60 00 34 cc 0e 13 40 00      00:04:54.473  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:54.387  READ LOG EXT
  60 00 35 cb 0e 13 40 00      00:04:49.973  READ FPDMA QUEUED

Error 11 occurred at disk power-on lifetime: 15873 hours (661 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cc 0e 13 00  Error: UNC at LBA = 0x00130ecc = 1248972

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 34 cc 0e 13 40 00      00:04:54.473  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:54.387  READ LOG EXT
  60 00 35 cb 0e 13 40 00      00:04:49.973  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:49.887  READ LOG EXT
  60 00 36 ca 0e 13 40 00      00:04:45.386  READ FPDMA QUEUED

Error 10 occurred at disk power-on lifetime: 15873 hours (661 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cb 0e 13 00  Error: UNC at LBA = 0x00130ecb = 1248971

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 35 cb 0e 13 40 00      00:04:49.973  READ FPDMA QUEUED
  2f 00 01 10 00 00 00 00      00:04:49.887  READ LOG EXT
  60 00 36 ca 0e 13 40 00      00:04:45.386  READ FPDMA QUEUED
  60 00 80 80 11 13 40 00      00:04:45.386  READ FPDMA QUEUED
  60 00 80 00 11 13 40 00      00:04:45.386  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     61916         -
# 2  Short offline       Completed without error       00%     61893         -
# 3  Short offline       Completed without error       00%     61869         -
# 4  Short offline       Completed without error       00%     61845         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

The above only provides legacy SMART information - try 'smartctl -x' for more


Vois-tu un indice du problème ? Ou une façon d'y remédier ?

Je lance un test badblocks en lecture seule dans la nuit pour apporter ici davantage d'infos sur ce disque (j'ai bien fait attention à la commande non-destructive : badblocks -s /dev/sdb ).

Merci beaucoup pour toutes tes explications, qui sont très claires. Je ne suis pas étrangers à toutes ces notions hardware, mais un noob dans le domaine des homelabs. J'ai lu et regardé beaucoup de choses au sujet de TrueNAS avant de me lancer dans ce petit projet. J'ajoute que j'ai monté en DIY ma machine avec l'aide à distance d'un frère ingénieur/informaticien. Mais j'apprends beaucoup au travers de tes réponses.

Si j'ai bien compris le rodage des disques se fait donc directement dans TrueNAS après sa fraiche installation via le shell avec l'outils badblocks ?
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Ah super!!
J'avoue, ça me rassure quelque part car, comme je disais, je ne connais pas SCALE mais bon ça m'aurait étonné que ce soit aussi différent. :tongue:

Alors voici les attributs auxquels je porte attention habituellement:
Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       85
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   030   030   000    Old_age   Always       -       61939
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       85
194 Temperature_Celsius     0x0022   024   059   000    Old_age   Always       -       24 (0 16 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0


  • #4 et #12 sont équivalents (ou presque) et représentent le nombre de démarrages du disque. #4 est le nombre de démarrage des plateaux et #12 le nombre de démarrage du disque lui même. Si le disque n'est pas mis en veille (c'est à dire arrêt des plateaux, ce qui est déconseillé pour une utilisation NAS) alors #4 = #12.
    Ce paramètre est pour information. Plus il est élevé, plus le disque a été sollicité (en terme de redémarrage) et c'est pas ce qu'il y a de mieux (c'est couplé avec #9 car là, 85 redémarrages pour 68k heures c'est rien!!).
  • #5 nombre de secteurs réalloués. Un secteur peut devenir illisible et le disque peut tenter de réallouer ce secteur. Celui là tu veux l'avoir à 0!! S'il commence à monter et que le disque est sous garantie, alors c'est un retour.
  • #9 le nombre d'heures de fonctionnement du disque.
  • #194: la température actuelle du disque. Il faut éviter qu'elle dépasse 40 degrés afin de maximiser la durée de vie du disque.
  • #197: nombre de secteurs "suspects". S'il augmente c'est un signe que potentiellement ton disque commence à avoir des problèmes.
  • #198: nombre de secteurs irrécupérables. Typiquement avant qu'il soit réalloué, un secteur peut devenir irrécupérable (puis après être réalloué je crois...). Bref, celui là tu veux pas qu'il augmente non plus...
Alors les seuils (pour #5, #197 et #198 typiquement) dépendent un peu des personnes je dirais car on trouve différents sons de cloche. Certains vont commencer à s'inquiéter dès que la valeurs (RAW_VALUE dans les attributs SMART) devient non nulle, d'autre à partir d'une dizaine, d'autres encore à partir d'une centaine...
A toi de voir aussi ce qui te convient.

J'ai trouvé un article en français qui documente ça un peu mieux aussi.

Bref, en l'occurrence ton disque là, semble plutôt en forme car #5, #197 et #198 sont à 0. Ok, il a +68k heures ce qui fait presque 8 ans d'activité donc la probabilité qu'il lache grandit... ;-P
C'est en contradiction avec les alertes de TrueNAS. Ce que je te conseille de faire c'est de regarder pour chacun de tes diques les attributs #5, #197 et #198 et tu tomberas probablement sur un disque avec des valeurs non nulles (il se peut que ce soit pas /dev/sdb et la lettre a pu changer entre temps).


Si on continue dans l'analyse du rapport:
La partie : Error 14 occurred at disk power-on lifetime: 15873 hours
attire l'attention...
Il y a eu 14 erreurs !! (c'est beaucoup) mais c'était il y a longtemps (à 15873 heures de durée de vie).
L'erreur est: Error: UNC at LBA = 0x00130ecf = 1248975
Il y a eu une erreur de lecture au bloc 0x00130ecf... Bon... il n'a pas réussi à lire les données sur ce bloc.
Les erreurs suivantes sont du même genre à une adresse suivante.
Hmmm... Alors ce qui rassure c'est que l'attribut #197 n'a pas augmenté. En effet une erreur UNC résultera probablement en une incrémentation de cet attribut. Maintenant, comment l'interpréter? Bah, c'était y'a longtemps! :-D

Ce qui me chagrine un peu plus c'est la suite:
Code:
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     61916         -


Le dernier test SMART effectué était à 61916 heures et c'était un test court. Dans la liste il n'y a que des tests courts d'ailleurs...
La première chose que je ferai c'est d'exécuter un test long et voir ce que ça donne.
Une bonne pratique est d'exécuter un test court par semaine et un long par mois.



Donc, pour résumer, dans les choses que je ferai:
  • Vérifier les autres disques en regardant les attributs SMART.
  • Lancer un test SMART long sur le disques (et pourquoi pas les autres aussi pendant que tu y es!).
  • Et si aucun des disques ne présente l'attributs #198 à 1 (alors que TrueNAS le dit) ben va falloir trouver pourquoi!! :tongue: car c'est pas normal.
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Incroyable, merci beaucoup ! La lecture du premier tableau en dit déjà long sur l'état du disque. Et je comprends mieux maintenant la valeur "15873 hours" affichée sur les erreurs.

Etrange quand même cette alerte TrueNAS. Mais si ce disque s'avère être en bonne santé, ça me permettrait de garder le nouveau tout juste commandé de côté (et avoir ce qu'il faut le jour où un disque lâche).

Vaut mieux lancer un test de lecture pour chaque disque via badblocks, ou un SMART test long via l'outil intégré de TrueNAS suffit ? Parceque je viens de lancer un test badblocks mais visiblement si je quitte la page Web avec le shell le test s'arrête net. Avec un SMART, je pourrai éteindre mon ordi, aller me coucher, et voir les résultats demain matin.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Alors pour l'instant un test SMART long suffira et a l'avantage d'être géré par le disque, donc tu lances le test et tu vas te coucher en attendant le résultat. :smile:
Par contre, faut laisser le serveur allumé car faut que le disque tourne. :smile:

Pour badblocks c'est un peu plus compliqué. Il n'est pas géré par le disque donc il faut que le terminal soit actif (ou alors on utilise un outil pour que la session reste active).
Et attention car badblocks peut être destructif (au sens pour les données sur le disque). On peut le lancer en lecture seule mais je pense pas qu'il y ait beaucoup d'intérêt (par rapport à un test SMART long). badblocks est à mon sens intéressant en mode destructif pour le rodage de disque (ou confirmer un problème de surface sur un disque).
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Super, eh bien j'ai lancé les tests long pour chacun des 4 HDD de cette pool. Je reviendrai ici demain pour poster les résultats et voir avec toi (ou d'autres bien sûr) si l'on peut aller plus loin dans ces investigations.

Je vais aussi m'occuper de cette histoire de terminal, si visiblement il y a des solutions plus pratiques que celui qui est intégré à l'interface Web de TrueNAS.

Encore mille mercis pour tes explications et ta pédagogie.

Affaire à suivre!
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Comme promis, je reviens ici avec les résultats des 4 tests longs. Déjà, côté notifications de TrueNAS, je remarque que je m'étais trompé sur un point. Il y a deux jours, le message d'erreur posté en premier message de ce thread concernait bien le disque sdb sur lequel on faisait nos recherche hier. Mais les notifications d'hier matin ne le concernaient plus, mais pointait le disque sdd. Ce matin, un des 4 tests n'a pas réussi à aller au bout : celui du disque sdd.

Voici les résultats des trois tests qui ont réussis.
Sdb:
Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   099   006    Pre-fail  Always       -       57871080
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       85
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   086   060   030    Pre-fail  Always       -       425145051
  9 Power_On_Hours          0x0032   030   030   000    Old_age   Always       -       61948
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       85
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   086   086   000    Old_age   Always       -       14
188 Command_Timeout         0x0032   100   096   000    Old_age   Always       -       5 5 5
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       110
190 Airflow_Temperature_Cel 0x0022   076   041   045    Old_age   Always   In_the_past 24 (1 218 26 23 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       22
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       682467
194 Temperature_Celsius     0x0022   024   059   000    Old_age   Always       -       24 (0 16 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0


Sde :
Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       134206136
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       52
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       202986822
  9 Power_On_Hours          0x0032   074   074   000    Old_age   Always       -       23021
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       49
183 Runtime_Bad_Block       0x0032   099   099   000    Old_age   Always       -       1
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       2 2 2
189 High_Fly_Writes         0x003a   087   087   000    Old_age   Always       -       13
190 Airflow_Temperature_Cel 0x0022   066   056   045    Old_age   Always       -       34 (Min/Max 33/38)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   092   092   000    Old_age   Always       -       16883
194 Temperature_Celsius     0x0022   034   044   000    Old_age   Always       -       34 (0 16 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0


Sdc :
Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   076   064   006    Pre-fail  Always       -       35539287
  3 Spin_Up_Time            0x0003   098   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2351
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   091   061   045    Pre-fail  Always       -       1267591471
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15045h+05m+41.618s
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   020    Old_age   Always       -       2327
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0 0 3
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   065   051   040    Old_age   Always       -       35 (Min/Max 34/39)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       289
193 Load_Cycle_Count        0x0032   096   096   000    Old_age   Always       -       8612
194 Temperature_Celsius     0x0022   035   049   000    Old_age   Always       -       35 (0 15 0 0 0)
195 Hardware_ECC_Recovered  0x001a   076   064   000    Old_age   Always       -       35539287
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0


Si j'en crois tes indications, au niveau des valeurs critiques à surveiller, elles sont toutes à 0 pour ces trois disques. J'ajoute qu'il est précisé à chaque fois que le test "Extended online" fait cette nuit a réussi et n'a trouvé aucune erreur.

Venons-en maintenant au disque inquiétant.
Les résultats smartctl pour le disque sdd :

Code:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   078   063   044    Pre-fail  Always       -       70578051
  3 Spin_Up_Time            0x0003   091   091   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       42
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       3
  7 Seek_Error_Rate         0x000f   089   060   030    Pre-fail  Always       -       16092991594
  9 Power_On_Hours          0x0032   067   067   000    Old_age   Always       -       29268
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       1
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   049   045    Old_age   Always       -       28 (Min/Max 27/30)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       277
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       35
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       231
194 Temperature_Celsius     0x0022   028   051   000    Old_age   Always       -       28 (0 15 0 0 0)
195 Hardware_ECC_Recovered  0x001a   114   099   000    Old_age   Always       -       70578051
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       30%     29264         3160085146
# 2  Short offline       Completed without error       00%     29260         -
# 3  Short offline       Completed without error       00%     29236         -
# 4  Short offline       Completed without error       00%     29213         -
# 5  Short offline       Completed without error       00%     29197         -
# 6  Short offline       Completed without error       00%     29188         -
# 7  Short offline       Completed without error       00%     29164         -
# 8  Extended offline    Completed without error       00%        22         -
# 9  Extended offline    Aborted by host               90%        17         -
#10  Extended offline    Completed without error       00%         5         -


Les valeurs sont ici inquiétantes : 3 secteurs ré-alloués, 1 pending sector et 1 hors-ligne incorrigible... Ca corrobore également les messages d'erreur de TrueNAS. Pour commencer, je changerai donc ce disque dés que je recevrai le nouveau (samedi au plus tard).

En revanche, ce que je n'explique pas c'est, pourquoi TrueNAS m'a-t-il envoyé ce message d'erreur (1er message du thread) il y a deux jours pour le disque sdb alors que les valeurs en question sont à 0 dans smartctl ? Un bug système est-il possible dans ce genre de cas ou très peu probable ?

EDIT : J'ai réussi à me connecter via SSH à mon serveur dans le Terminal de MacOS. Ce sera en effet, à l'avenir, bien plus pratique que le Shell intégré à l'interface Web de TrueNAS Scale !
 
Last edited:

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Je me permets de reposter un message à la suite du précédent, pour poser une question dans la continuité de notre discussion.

Je vais donc changer le disque défaillant avec le nouveau samedi. J'ai bien compris la démarche à suivre pour remplacer un disque dans cette pool RAIDz1. Néanmoins, est-il possible de faire le rodage de ce nouveau disque au même moment ?

Car si j'ai bien compris, pour le changement je dois : aller dans la liste des disques de ma pool, "Offline" le disque défaillant, remplacer physiquement le disque par le nouveau (inutile d'éteindre le serveur donc ?), et ensuite REPLACE l'ancien disque par le nouveau pour que TrueNAS reconstruise la pool. Mais le rodage badblocks étant destructif, à quel moment dois-je le faire ? Une fois le disque installé et la pool reconstruite ? Car en suivant cette logique, cela implique que la pool soit dégradée une seconde fois puis reconstruite une seconde fois ?

Je préfère poser la question avant de faire des bêtises.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Bravo pour la connexion SSH, ça sera en effet plus pratique.

Alors oui, sdd est bon pour remplacement... :smile: En tout cas, moi je le remplacerai.

Un autre disque qui pourra potentiellement suivre (mais c'est pas sûr) c'est sdc avec plus de 2300 démarrages. C'est pas obligé hein mais les redémarrages sont "usants" pour les disques (puisque mécaniques). Donc il ne serait pas surprenant. En attendant, il a l'air encore de tenir hein donc pas d'inquiétude, c'est juste un pari. :smile:

En revanche, ce que je n'explique pas c'est, pourquoi TrueNAS m'a-t-il envoyé ce message d'erreur (1er message du thread) il y a deux jours pour le disque sdb alors que les valeurs en question sont à 0 dans smartctl ?
Alors si ça s'explique.
Entre temps, as-tu redémarré le serveur? Ou fait des modifications (branchement/débranchement d'un disque à chaud)?
Si tu n'as rien fait alors c'est un peu étrange... mais je ne m'en formaliserai pas plus.
En effet, sous Linux (et TrueNAS), tu devrais prendre l'habitude d'identifier les disques par leur numéro de série et non leur appellation sdx car celle-ci n'est pas forcément la même. En effet, d'un redémarrage à l'autre il se peut que sda devienne sdb ou autre...
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Super. Maintenant, je sais comment surveiller tout ça. J'ai configuré, comme tu me l'as conseillé, un smart short par semaine et un long par mois, et ce, pour tous les disques.

Entre temps, as-tu redémarré le serveur? Ou fait des modifications (branchement/débranchement d'un disque à chaud)?

Pour le redémarrage c'est fort possible oui (peut-être même plus d'un). J'ai notamment rajouté un petit disque pour faire une pool isolée dédiée à la synchro de TimeMachine. En revanche je n'ai pas touché physiquement aux disques en question. Mais si, d'un démarrage à l'autre, la nomenclature sdX peut changer (d'autant que j'ai rajouté un disque), ça expliquerait ce message d'il y a deux jours, puis le même les deux jours suivant sous le nom de sdd et non sdb ! je surveillerai ça attentivement maintenant que j'ai compris la bass de la commande smartctl.

Je me permets de t'embêter pour un dernier point (cf : mon message juste au dessus du dernier que tu viens de poster), au sujet de remplacement du disque et de la procédure de rodage par badblocks ?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
En revanche je n'ai pas touché physiquement aux disques en question.
Ah ça peut importe...
Mais effectivement, l'ajout d'un disque peut modifier l'affectation des sdx.

Je te conseille aussi de mettre de manière visible (genre sur la tranche ou autre) les 4 derniers caractères du numéro de série du disque pour pouvoir facilement l'identifier physiquement aussi, une fois qu'il est installé dans le boitier. C'est juste pratique.


la procédure de rodage par badblocks
Ah ouais, bien vu, j'avais zappé tes questions dans ton post précédent... J'essaye de faire gaffe mais bon... :tongue:

à quel moment dois-je le faire ?
Ce que je fais, c'est dès l'achat du disque, avant de l'intégrer dans le serveur et le volume, je fais le rodage.
Par sécurité, je fais ça sur une autre machine... (il se trouve que j'ai un vieux PC qui traine....) pour éviter d'effacer un disque utilisé! :-D
Bref, sur le PC j'ai TrueNAS sur un petit disque de boot mais en fait je m'en sers pas ou peu (pour les tests éventuellement) et j'utilise badblocks depuis un terminal.

Théoriquement tu peux en effet le faire sur le volume en dégradant le volume.... mais je trouve ça risqué (surtout en RAIDz1)!!
L'inconvénient est en effet si tu n'as qu'un serveur.... bah faut que tu trouves alors le meilleur compromis.
Je sais pas si ça t'aide beaucoup... :tongue:
 

Musikauss

Dabbler
Joined
Mar 11, 2024
Messages
13
Je te conseille aussi de mettre de manière visible (genre sur la tranche ou autre) les 4 derniers caractères du numéro de série du disque pour pouvoir facilement l'identifier physiquement aussi, une fois qu'il est installé dans le boitier
Pour le coup ça, je l'avais anticipé ! Je m'en suis occupé au moment du montage en reportant les numero de série des disques indiqués dans le BIOS directement sur les disques.

Ce que je fais, c'est dès l'achat du disque, avant de l'intégrer dans le serveur et le volume, je fais le rodage.
Par sécurité, je fais ça sur une autre machine... (il se trouve que j'ai un vieux PC qui traine....) pour éviter d'effacer un disque utilisé! :-D
Bref, sur le PC j'ai TrueNAS sur un petit disque de boot mais en fait je m'en sers pas ou peu (pour les tests éventuellement) et j'utilise badblocks depuis un terminal.

C'est bien ce que je pensais.. Etant donné que je n'ai pas d'autres machines de dispo, je pense que je me passerai du rodage pour celui-ci (trop peur de faire une bêtise avec le peu de connaissance et d'assurance que j'ai).

Bon, je note le thread comme résolu, et je reviendrai juste poster une confirmation que tout est rentré dans l'ordre côté alertes TrueNAS et changement du disque défectueux.

Merci encore!
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
trop peur de faire une bêtise avec le peu de connaissance et d'assurance que j'ai
Alors sinon, pour être tranquille, tu retires tous les disques et tu ne laisses que celui que tu veux roder.
Avec un disque de 2To ça devrait aller relativement vite (donc peut-être que tu pourras te passer de ton NAS pendant ce temps? :tongue:).
 
Top