Erreur récurrente

FASIGO

Cadet
Joined
Mar 23, 2020
Messages
9
Bonjour,

J’ai un NAS avec deux disques Raid et un disque ada3 et j’ai le logiciel de sauvegarde ADOMEI Backupper.

Depuis l’installation sur la console de la NAS apparaît les messages suivants tous les jours à la même heure :

Jul 31 00:56 :33 freenas smartd[1245] : Périphérique : /dev/ada3, auto-test précédent terminé avec erreur (lire l’élément test)

Jul 31 00:56 :33 freenas smartd[1245] : Périphérique : /dev/ada3, Le nombre d’erreurs du journal d’auto-test est passé de 6 à 7


  • Aucune tâche n’est programmée à cette heure,
  • Le lendemain même message avec : « incrased from 7 to 8 »
Je ne trouve aucun message d’erreur sur le tableau de bord (windows)

Avez-vous une piste.

Merci et bon week-end.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Bonjour,

Un peu de précision serait pratique pour comprendre un peu mieux comment est configuré le système.
deux disques Raid
Ca veut dire qu'ils sont configuré en miroir je suppose?

un disque ada3
C'est le disque de démarrage? Ou sinon à quoi sert ce disque et comment est-il configuré?

Par ailleurs, il serait également bien de préciser le matériel utilisé et la version de TrueNAS que tu as (comme c'est demandé dans les règles du forum d'ailleurs), ça permet de connaître le contexte lorsque l'on essaye de comprendre ce qui se passe.


D'après les messages, il doit sûrement s'agir d'un test SMART qui s'est déroulé dans la nuit et s'est terminé avec une erreur.
De manière générale, les tests SMART (courts et longs) devraient être planifiés de manière régulière (selon la version de FreeNAS/TrueNAS, c'est une tâche ajoutée par défaut...). Dans ton cas, cela semble être le cas (tu peux voir dans les tâches planifiées, ils devraient apparaître).
En tout cas, le monitoring SMART signal une erreur.
Il serait intéressant d'avoir le résultat de la commande smartctl -a /dev/ada3 pour voir les attributs SMART du disque (tu peux d'ailleurs faire ça pour tous les disques, ça permettra de voir leurs attributs également).


En gros, c'est plutôt une mauvaise chose ces messages d'erreur.
Je te conseille, en premier lieu, de t'assurer que tu as des sauvegardes correctes (juste au cas où, on n'est jamais trop prudent!).
 

FASIGO

Cadet
Joined
Mar 23, 2020
Messages
9
Merci pour ta réponse.
J'ai freenas 11.3, le système est installé sur un SSD. Les deux disques Raid (1,8Tib) sont en miroir. J'ai un ordinateur fixe, un portable (win 10) et la NAS.
J'utilise AOMEI Backupper et je me suis apercu que mon espace disque n'était pas suffisant. J'ai donc rajouté un disque ada3 sur lequel je sauvegarde le système de chaque ordinateur. Sur le Raid, je sauvegarde les données.
J'ai fait la vérification des dernières sauvegardes, RAS
Voici le rsultat de la commande

Warning: settings changed through the CLI are not written to
the configuration database and will be reset on reboot.

root@freenas[~]# smartctl -a /dev/ada3
smartctl 7.0 2018-12-30 r4883 [FreeBSD 11.3-RELEASE-p14 amd64] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green
Device Model: WDC WD10EACS-00D6B1
Serial Number: WD-WCAU46262512
LU WWN Device Id: 5 0014ee 2026171db
Firmware Version: 01.01A01
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS (minor revision not indicated)
SATA Version is: SATA 2.5, 3.0 Gb/s
Local Time is: Sun Jul 31 13:49:14 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x05) Offline data collection activity
was aborted by an interrupting command from host.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (24000) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 275) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303f) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 161 158 021 Pre-fail Always - 6916
4 Start_Stop_Count 0x0032 083 083 000 Old_age Always - 17990
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 033 033 000 Old_age Always - 49278
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 094 094 000 Old_age Always - 6387
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 142
193 Load_Cycle_Count 0x0032 195 195 000 Old_age Always - 17629
194 Temperature_Celsius 0x0022 119 097 000 Old_age Always - 31
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 1
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 49264 499521
# 2 Extended offline Completed: read failure 90% 49240 499521
# 3 Extended offline Completed: read failure 90% 49216 499521
# 4 Extended offline Completed: read failure 90% 49192 499521
# 5 Extended offline Completed: read failure 90% 49169 499521
# 6 Extended offline Completed: read failure 90% 49145 499521
# 7 Extended offline Completed: read failure 90% 49121 499521
# 8 Extended offline Completed without error 00% 49101 -
# 9 Short offline Completed without error 00% 47882 -
#10 Short offline Completed without error 00% 47714 -
#11 Short offline Completed without error 00% 47546 -
#12 Short offline Completed without error 00% 47378 -
#13 Short offline Completed without error 00% 47085 -
#14 Short offline Completed without error 00% 46978 -
#15 Short offline Completed without error 00% 46769 -
#16 Short offline Completed without error 00% 46603 -
#17 Short offline Aborted by host 10% 46470 -
#18 Short offline Completed without error 00% 46334 -
#19 Short offline Completed without error 00% 46179 -
#20 Short offline Completed without error 00% 46042 -
#21 Short offline Completed without error 00% 45739 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0

J'ai un peu galéré pour paramétrer le système et les sauvegarde. Il est possible que l'erreur vienne de là et que d'anciennes sauvegarde soient mal éffacées.
Merci encore et bonne journée.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Merci pour les info SMART.
Pour info, c'est plus lisible si tu utilises les balises du forum pour formater le texte, dans ce cas, la balise "code" est utile.
Code:
Ca donne quelque chose comme ça...

Ou tu peux utiliser la balise inline code, peut-être moins pratique lorsqu'il y a beaucoup de lignes mais ça marche aussi.


Je ne comprends toujours pas très bien comment tu as configuré ton 3ième disque.
J'espère juste que tu n'as pas étendu ton volume existant avec ce troisième disque.....
Et si ce disque est un volume séparé, j'espère que c'est clair pour toi qu'il n'y a alors pas de redondance des données. Si FreeNAS détecte une erreur, il ne pourra pas la corriger. Mais bon si ça c'est clair alors très bien...

Pour en revenir aux données SMART, au niveau des attributs, cela me semble pas mal, les attributs #196, #197 et #198 sont à zéro, ce qui est le plus important.
Par contre ce qui me chiffonne un peu, c'est
# 1 Extended offline Completed: read failure 90% 49264 499521

SMART a détecté un problème de lecture au niveau du disque... à plusieurs reprises (sur le même secteur).
C'est mauvais signe...

Plusieurs options possibles à ce niveau là:
  • Données critiques: on part sur l'option la plus sûre, on change le disque au plus vite...
    • Il faut savoir ici que si on remplace le disque, il n'est pas non plus garanti que ça se passe sans problème car si il y a effectivement un secteur illisible sur lequel se trouve des données, comme ce disque n'a pas de redondance, FreeNAS sera incapable de réparer cette erreur...
  • Données pas critiques: ben on continue jusqu'à ce que le disque lâche complètement.

Perso, j'aime pas avoir des problèmes sur mes disques durs donc je partirai sur le remplacement... mais ça n'engage que moi. :smile:

Remarque: vu que c'est un disque de 1To et vu le nombre d'heures de vol, j'ai omis l'option où un retour au fabricant sous garantie pouvait être envisagé... :smile:

Ce que je pense c'est que le secteur qui pose problème (le 499521) n'est pas un secteur qui a déjà été accédé. Car si cela avait été le cas, FreeNAS aurait très probablement râlé (tiens, ça peut valoir le coup de donner le résultat de la commande zpool status, voir si y'a des erreurs avant de dire que FreeNAS n'a pas râlé! :tongue: ).
Les tests SMART sont non destructifs (au sens des données, c'est à dire que les tests sont réalisés en lecture seule) mais je pense qu'au moment où le système voudra accéder au secteur 499521, ça risque de poser problème... (la probabilité que ce ne soit pas une vraie erreur existe (comme je l'ai dit les tests ne sont qu'en lecture seule) mais je pense que c'est assez minime)

Pour confirmer le problème, tu pourrais réaliser un test destructif sur ce disque (avec badblocks) mais c'est destructif (!) donc comme tu n'as pas de redondance, pas pratique car tu perdrais les données sur le disque et ça demande de maîtriser un peu la ligne de commande sous Linux.



Autre remarque sur les résultats SMART:
Je suis un peu surpris qu'entre 45000h et +47000h il n'y a eu que des test courts... Ca fait presque 3 mois sans tests longs, c'est un peu.... long! :smile:
Surtout qu'après ils sont réalisés tous les jours (ce qui est un peu beaucoup là par contre... :tongue:).
En règle générale, un test court par semaine et un long par mois... pour donner un ordre de grandeur.
 

FASIGO

Cadet
Joined
Mar 23, 2020
Messages
9
Pour info, le disque ada3 me permet de faire la sauvegarde des fichiers système sans redondance. J'aurai pu laisser ce disque sur mon PC de bureau et faire les sauvegarde système dessus
J'avais mis à l'origine un disque 1,3To et freenas. Il me renvoyait des erreurs. J'ai monté ce disque sur mon PC de bureau et vérifié, pas d'erreur.
J'ai pris un autre disque de 1To que j'ai formaté et vérifié, pas d'erreur je l'ai donc monté dans la NAS. A priori même erreur mais je ne me souviens pas des secteurs.
La seule différence c'est qu'avant je retrouvais ces alertes sur mon tableau de bord, maintenant. Voici mes alertes :

Device: /dev/ada3, Self-Test Log error count increased from 0 to 1.
Mon, 25 Jul 2022 12:56:33 AM (Europe/Paris)
Dismiss
INFO
Scrub of pool 'freenas-boot' finished.
Sun, 31 Jul 2022 03:45:16 AM (Europe/Paris)
Dismiss
INFO
Scrub of pool 'freenas-boot' started.
Sun, 31 Jul 2022 03:45:00 AM (Europe/Paris)
Dismiss
Le 25 juillet après midi je changeais le disque ada3.

Il reste que je ne suis qu'un particulier. J'ai monté une NAS pour le fun. C'est tout de même curieux le même type d'erreurs.
Merci encore de ton attention.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Il me renvoyait des erreurs. J'ai monté ce disque sur mon PC de bureau et vérifié, pas d'erreur.
Je suppose que ton PC de bureau est sous windows?
Il faut savoir que windows (par défaut) ne fait pas de monitoring des disques comme peut le faire FreeNAS. De plus, windows est beaucoup plus permissif en terme d'erreur que FreeNAS.
Windows n'a que des outils limités pour vérifier un disque (il peut vérifier le système de fichier par exemple, ce qui est l'équivalent du scrub sous FreeNAS).
Sous FreeNAS, tu as accès aux tests SMART des disques et il y a des outils (comme badblocks) qui permettent de vérifier la surface du disque.

Donc je dirai: si windows ne te donne pas d'erreur ça veut pas forcément dire que ton disque va bien. :smile:

C'est tout de même curieux le même type d'erreurs.
Alors pas forcément, ça dépend des disques.
Si je prends l'exemple de ton disque ada3 qui a +49000 heures d'utilisation, ça représente environ 5,6 ans, ce qui pour un disque est très honorable. Donc pas étonnant que des défaillances arrivent.
Je ne sais pas si c'est le cas de l'autre disque tu avais utilisé aussi mais s'il est de la même génération, ça peut se comprendre.

Bref, avec FreeNAS (mais pas seulement) il faut régulièrement vérifier la santé des disques pour savoir si un changement est nécessaire. Et plus les disques ont des heures de vol, plus c'est à surveiller.
Et quand un disque est neuf, c'est également une bonne pratique de lui faire subir un petit "rodage" pour prévenir une mortalité infantile.
 

FASIGO

Cadet
Joined
Mar 23, 2020
Messages
9
Je confirme, mes deux disques ont deux clusters défectueux. Je vais donc changer mes discques Raid qi étaient trop petit. Avez-vous un conseil.
Merci.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Je confirme, mes deux disques ont deux clusters défectueux.
Juste pour être sûr: ça veut dire que le disque ada3 (qui est un volume seul, c'est ça?) et un des disque du miroir?
Donc normalement ton miroir n'a pas de problème puisqu'il y a un disque de redondance. Mais pour ada3, c'est une autre histoire, si y'a de la donnée dans le secteur défectueux alors c'est mort.


Avez-vous un conseil.
Oui, j'ai pleins de conseils, des bons et des pas bons! :-D
Plus sérieusement, à quel sujet exactement? Par rapport au changement des disques?

Car le sujet est un peu large...
Tu dis que tu as deux disques en miroir de 1To pour les données et un troisième en volume simple pour les sauvegardes système.

Je ne connais pas ton matériel ni tes besoins (plug-in, VM, ...) mais perso, je partirai sur un volume en RAIDz2 avec au moins 5 disques (je viserai pas moins de 4To pour un rapport capacité/prix raisonnable), 7 à 8 disques au mieux.
Je changerai donc complètement la configuration du volume et repartirai de zéro... oui, ça peut paraître un peu drastique... :smile:

En pratique, si tu ne souhaites rien changer à la configuration actuelle, eh bien un simple changement des disques peut se faire. Je te conseille alors de chercher dans la doc pour le remplacement d'un disque (ou si tu remplaces par un disque de plus grande capacité).

Peux-tu poster la sortie de zpool status (de préférence en utilisant les balises code ou inline code, c'est plus lisible)? Ca permettra de voir si ton miroir a des erreurs ou pas.
 

FASIGO

Cadet
Joined
Mar 23, 2020
Messages
9
En fait mon pool fonctionne bien, mais 1,7 To c'est trop petit. C'est pour cette raison que j'ai ajouté ada3 en solo.
Quand j'ai vu que j'avais des problèmes sur ada3, je l'ai remplacé par un autre qui avait aussi des problèmes (les vérifications windows sont en effet, pas suffisantes).
Etant un bricolo du dimanche, je vais commencer progressivement par 2 disques miroir de 4 To.
Merci encore et bonne journée.
 
Top