Erreurs disques durs

Status
Not open for further replies.

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
Bonjour,
Je poste tardivement mon problème mais comme j'aime bien comprendre les choses...
En mars dernier je recevais ce message d'erreur:
Checking status of zfs pools:
NAME SIZE ALLOC FREE CAP DEDUP HEALTH ALTROOT
Volume1 10.9T 3.36T 7.51T 30% 1.00x ONLINE /mnt

pool: Volume1
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://illumos.org/msg/ZFS-8000-8A
scan: scrub repaired 2.54M in 9h50m with 143 errors on Sun Mar 13 09:50:46 2016
config:

NAME STATE READ WRITE CKSUM
Volume1 ONLINE 0 0 3.14M
raidz3-0 ONLINE 0 0 6.28M
gptid/04fde74f-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 12
gptid/0553f818-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 36
gptid/05aa6fa2-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 10
gptid/06031a63-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 45
gptid/06580ca5-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 6
gptid/06b1c859-a310-11e3-9955-d43d7e023c8b ONLINE 0 0 24

errors: 143 data errors, use '-v' for a list

-- End of daily output --
J'ai voulu récupérer les datas mais ça à été très compliqué, une simple copie revoyait des erreurs à tour de bras.
Depuis j'ai mes data ailleurs et je me suis promis que dès que j'aurais du temps j'allais creuser.
C'est pourquoi je sollicite le forum afin de bien comprendre le message, comment vérifier mes disques et enfin comment résoudre mon problème.
Pour info, le nas à parfaitement fonctionné pendant un bon moment, j'ai 6 DD 2 2To WD Red, 12 Go de ram, l'OS est sur usb.
Merci d'avance de votre aide qui me permettra certainement de progresser.
 

Bidule0hm

Server Electronics Sorcerer
Joined
Aug 5, 2013
Messages
3,710
Comment sont connectés les disques ?

Peux-tu poster la liste de ton matériel STP ?
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
Bonjour et merci.
Les disques sont tous WD Red de 2To en Sata, tous connectés à la CM, une MSI Z77A-G41. Dessus, 3x4Go DDR3 et une carte réseau supplémentaire en pcie, intel pro 10/100/1000. Le processeur est un intel celeron. Alim 750W.
Veux tu plus de précisions?

Ah oui, freebsd 9.2 release p12
 
Last edited:

Bidule0hm

Server Electronics Sorcerer
Joined
Aug 5, 2013
Messages
3,710
Pas de RAID activé sur la carte-mère ?

Si non alors je dirais que c'est les câbles ou l'alim (quelle est la marque/modèle ?) car d'après la capture tous les disques ont des erreurs de checksum ce qui n'est pas normal du tout.
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
Pas de RAID sur la CM, tout est géré par freenas.
Je soupsonne aussi l'alim, c'est une ADVANCE TX-750W
Il y a un moyen sous linux je crois pour vérifier les DD non?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Tu parles des tests SMART pour les disques?

Normalement, il faut les planifier dans FreeNAS pour qu'ils s'exécutent régulièrement sur tes disques.

Tu peux vérifier l'état des disques avec:
smartctl -a /dev/ada0
A faire pour chaque disques (ada0 ... ada5 selon ton système).
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
je pensais à un test de surface des DD genre chk mais peut-être que smartctl renvoie un résultat. J'avoue que la je suis complètement newbee
En attendant pour faire un test et voir si j'ai toujours le message demain matin j'ai mis une alim corsair CX430.
Je doute vraiment avoir un problème sur chacun de mes disques...
Merci encore de ton aide.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Si tu programmes des tests SMART longs (ou étendus) ça teste la surface.

Normalement dans le rapport que donne smartctl -a /dev/ada0 une section liste les tests réalisés (courts ou extendus) du genre:

Code:
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     11616         -
# 2  Short offline       Completed without error       00%     11448         -
# 3  Extended offline    Completed without error       00%     11375         -
 

Bidule0hm

Server Electronics Sorcerer
Joined
Aug 5, 2013
Messages
3,710
Une alim Advance... mouais je dirais que c'est la coupable. Si c'est pas elle je dirais les câbles SATA. Il se peut aussi que les disques soient trop chaud, faut voir ce que dit smart.

@Pitfrr +1 pour avoir les valeurs renvoyées par smart (pense à mettre les sorties entre balises code ou alors sur pastebin et tu poste le lien) ça permettrait d'y voir plus clair ;)

NB: Il se peut que les disques s’appellent daX et non adaX.
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
salut, même résultat sur les 6 disques :
Code:
12 Power_Cycle_Count  0x0032  100  100  000  Old_age  Always  -  39   
192 Power-Off_Retract_Count 0x0032  200  200  000  Old_age  Always  -  19   
193 Load_Cycle_Count  0x0032  200  200  000  Old_age  Always  -  59   
194 Temperature_Celsius  0x0022  116  104  000  Old_age  Always  -  31   
196 Reallocated_Event_Count 0x0032  200  200  000  Old_age  Always  -  0   
197 Current_Pending_Sector  0x0032  200  200  000  Old_age  Always  -  0   
198 Offline_Uncorrectable  0x0030  100  253  000  Old_age  Offline  -  0   
199 UDMA_CRC_Error_Count  0x0032  200  200  000  Old_age  Always  -  0   
200 Multi_Zone_Error_Rate  0x0008  100  253  000  Old_age  Offline  -  0   
   
SMART Error Log Version: 1   
No Errors Logged   
   
SMART Self-test log structure revision number 1   
Num  Test_Description  Status  Remaining  LifeTime(hours)  LBA_of_first_error   
# 1  Short offline  Completed without error  00%  17741  -   
# 2  Short offline  Completed without error  00%  17740  -   
# 3  Short offline  Completed without error  00%  17739  -   
# 4  Short offline  Completed without error  00%  17738  -   
# 5  Short offline  Completed without error  00%  17737  -   
# 6  Short offline  Completed without error  00%  17736  -   
# 7  Short offline  Completed without error  00%  17735  -   
# 8  Short offline  Completed without error  00%  17734  -   
# 9  Short offline  Completed without error  00%  17733  -   
#10  Short offline  Completed without error  00%  17732  -   
#11  Short offline  Completed without error  00%  17731  -   
#12  Short offline  Completed without error  00%  17730  -   
#13  Short offline  Completed without error  00%  17729  -   
#14  Short offline  Completed without error  00%  17728  -   
#15  Short offline  Completed without error  00%  17727  -   
#16  Short offline  Completed without error  00%  17726  -   
#17  Short offline  Completed without error  00%  17725  -   
#18  Short offline  Completed without error  00%  17724  -   
#19  Short offline  Completed without error  00%  17723  -   
#20  Short offline  Completed without error  00%  17722  -   
#21  Short offline  Completed without error  00%  17721  -   
   
SMART Selective self-test log data structure revision number 1   
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS   
  1  0  0  Not_testing   
  2  0  0  Not_testing   
  3  0  0  Not_testing   
  4  0  0  Not_testing   
  5  0  0  Not_testing   
Selective self-test flags (0x0):   
  After scanning selected spans, do NOT read-scan remainder of disk.   
If Selective self-test is pending on power-up, resume after 0 minute delay. 
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
salut, même résultat sur les 6 disques :
Code:
12 Power_Cycle_Count  0x0032  100  100  000  Old_age  Always  -  39   
192 Power-Off_Retract_Count 0x0032  200  200  000  Old_age  Always  -  19   
193 Load_Cycle_Count  0x0032  200  200  000  Old_age  Always  -  59   
194 Temperature_Celsius  0x0022  116  104  000  Old_age  Always  -  31   
196 Reallocated_Event_Count 0x0032  200  200  000  Old_age  Always  -  0   
197 Current_Pending_Sector  0x0032  200  200  000  Old_age  Always  -  0   
198 Offline_Uncorrectable  0x0030  100  253  000  Old_age  Offline  -  0   
199 UDMA_CRC_Error_Count  0x0032  200  200  000  Old_age  Always  -  0   
200 Multi_Zone_Error_Rate  0x0008  100  253  000  Old_age  Offline  -  0   
   
SMART Error Log Version: 1   
No Errors Logged   
   
SMART Self-test log structure revision number 1   
Num  Test_Description  Status  Remaining  LifeTime(hours)  LBA_of_first_error   
# 1  Short offline  Completed without error  00%  17741  -   
# 2  Short offline  Completed without error  00%  17740  -   
# 3  Short offline  Completed without error  00%  17739  -   
# 4  Short offline  Completed without error  00%  17738  -   
# 5  Short offline  Completed without error  00%  17737  -   
# 6  Short offline  Completed without error  00%  17736  -   
# 7  Short offline  Completed without error  00%  17735  -   
# 8  Short offline  Completed without error  00%  17734  -   
# 9  Short offline  Completed without error  00%  17733  -   
#10  Short offline  Completed without error  00%  17732  -   
#11  Short offline  Completed without error  00%  17731  -   
#12  Short offline  Completed without error  00%  17730  -   
#13  Short offline  Completed without error  00%  17729  -   
#14  Short offline  Completed without error  00%  17728  -   
#15  Short offline  Completed without error  00%  17727  -   
#16  Short offline  Completed without error  00%  17726  -   
#17  Short offline  Completed without error  00%  17725  -   
#18  Short offline  Completed without error  00%  17724  -   
#19  Short offline  Completed without error  00%  17723  -   
#20  Short offline  Completed without error  00%  17722  -   
#21  Short offline  Completed without error  00%  17721  -   
   
SMART Selective self-test log data structure revision number 1   
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS   
  1  0  0  Not_testing   
  2  0  0  Not_testing   
  3  0  0  Not_testing   
  4  0  0  Not_testing   
  5  0  0  Not_testing   
Selective self-test flags (0x0):   
  After scanning selected spans, do NOT read-scan remainder of disk.   
If Selective self-test is pending on power-up, resume after 0 minute delay. 
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Alors c'est étrange car un short test est exécuté toutes les heures!?! Ca fait un peu beaucoup! Et du coup, dans la liste des tests exécutés, on ne voit pas si un extented test a été lancé.
Ca pourrait valoir le coup de changer la fréquence des short tests et de lancer un extended sur tes disques, juste pour être sûr (c'est quoi la fréquence pour tes extended tests?).
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
Sur l'interface web, view smart tests => No entry has been found ??????
J'ai programmé un long test pour 23 heures.
Etrange tout ça
 

Bidule0hm

Server Electronics Sorcerer
Joined
Aug 5, 2013
Messages
3,710
En principe on recommande le short de une fois par semaine à une fois par jour et le long de une fois par mois à une fois par semaine ;)

Le short ne teste pas vraiment la surface donc il faut vraiment un long pour savoir si y'a des secteurs problématiques.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
C'est étonnant que dans l'interface aucun test n'est listé!?
A moins que ce ne soient des tests très anciens?
Dans l'exemple que tu as donné les tests ont été effectués vers 17741h il faudrait voir à combien est le disque actuellement, c'est l'attribut SMART 9 Power_On_Hours (qui n'était inclus dans ce que tu as envoyé) ça.
 

Ardbeg1759

Cadet
Joined
Sep 20, 2016
Messages
9
Salut,
Je n'ai pas abandonné, j'ai comme beaucoup d'entre nous eu beaucoup de boulot (xorcom, c'est nouveau pour moi).
Je suis toujours sur mon affaire mais avant de continuer, je vais changer d'alim pour une 80plus et les nappes sata, ainsi on va sans doute pouvoir éliminer un certain nombre de paramètres.
Je reviens poster dès que possible et vous remercie encore du temps que vous m'avez déjà accordé.
 
Status
Not open for further replies.
Top