SOLVED alerte critique température

Rosin0416 · Apr 30, 2020

Bonjour,
Je poste aujourd'hui car en ouvrant ce matin mon interface du nas, j'avais une alerte critique sur les 4 disques qui composent le pool de données.
Comment avoir plus d'information?
quand cela s'est passé, est-ce qu'il y a avait une tâche en particulier ? à quelle température sont montés les disques ?
Peut-on connaitre ces informations ?

Je précise que mon nas n'est vraiment pas beaucoup utilisé, et qu'en cette période, il n'y a pas de chaleur extérieure qui justifie cette alerte.
en vous remerciant

Pitfrr · Apr 30, 2020

Bonjour,

Si c'est une alerte température pour les disques, il doit être indiqué de quels disques il s'agit (/dev/adan).
Avec smartctl -x /dev/adan (n étant le numéro du disque donc probablement de 0 à 3) on peut voir la température actuelle dans le atttribut SMART #194.

Code:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    0
  3 Spin_Up_Time            POS--K   199   173   021    -    7016
  4 Start_Stop_Count        -O--CK   100   100   000    -    85
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   100   253   000    -    0
  9 Power_On_Hours          -O--CK   070   070   000    -    22597
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    84
192 Power-Off_Retract_Count -O--CK   200   200   000    -    50
193 Load_Cycle_Count        -O--CK   200   200   000    -    1024
194 Temperature_Celsius     -O---K   122   109   000    -    30
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   200   000    -    0

Et un peu plus bas une section donne l'historique des températures:

Code:

SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:      0/60 Celsius
Min/Max Temperature Limit:           -41/85 Celsius
Temperature History Size (Index):    478 (225)

Index    Estimated Time   Temperature Celsius
 226    2020-04-30 04:40    30  ***********
 ...    ..(252 skipped).    ..  ***********
   1    2020-04-30 08:53    30  ***********
   2    2020-04-30 08:54    29  **********
 ...    ..(  4 skipped).    ..  **********
   7    2020-04-30 08:59    29  **********
   8    2020-04-30 09:00    30  ***********
 ...    ..(216 skipped).    ..  ***********
 225    2020-04-30 12:37    30  ***********

On peut alors regarder en fonction de la date et l'heure avec les graphiques dans FreeNAS si une activité particulière était en cours (SCRUB ou autre).
Les seuils d'alerte peuvent être configurés dans Service/S.M.A.R.T. (en tout cas pour FreeNAS 9.10.x).

Une bonne pratique est de garder la température des disque en dessous de 40°C pour maximiser leur longévité.

Rosin0416 · Apr 30, 2020

Bonjour et merci de ta réponse.
Mes alertes sont configurées dès que ça dépasse 40°C.
Par contre je ne sais pas de quand ça date, car je ne vais pas voir tout le temps.
En faisant ta manip :

Code:

306    2020-04-30 09:40    35  ****************                                                                                   
 307    2020-04-30 09:41    36  *****************                                                                                   
 ...    ..( 94 skipped).    ..  *****************                                                                                   
 402    2020-04-30 11:16    36  *****************                                                                                   
 403    2020-04-30 11:17    34  ***************                                                                                     
 ...    ..( 82 skipped).    ..  ***************                                                                                     
   8    2020-04-30 12:40    34  ***************                                                                                     
   9    2020-04-30 12:41    33  **************                                                                                     
 ...    ..(  6 skipped).    ..  **************                                                                                     
  16    2020-04-30 12:48    33  **************                                                                                     
  17    2020-04-30 12:49    34  ***************                                                                                     
 ...    ..(  9 skipped).    ..  ***************                                                                                     
  27    2020-04-30 12:59    34  ***************                                                                                     
  28    2020-04-30 13:00    35  ****************                                                                                   
 ...    ..( 21 skipped).    ..  ****************                                                                                   
  50    2020-04-30 13:22    35  ****************                                                                                   
  51    2020-04-30 13:23    36  *****************                                                                                   
 ...    ..(170 skipped).    ..  *****************                                                                                   
 222    2020-04-30 16:14    36  *****************                                                                                   
 223    2020-04-30 16:15    35  ****************                                                                                   
 224    2020-04-30 16:16    35  ****************                                                                                   
 225    2020-04-30 16:17    35  ****************                                                                                   
 226    2020-04-30 16:18    36  *****************                                                                                   
 ...    ..( 31 skipped).    ..  *****************                                                                                   
 258    2020-04-30 16:50    36  *****************                                                                                   
                                                                                                                                    
SCT Error Recovery Control:                                                                                                         
           Read:     70 (7.0 seconds)                                                                                               
          Write:     70 (7.0 seconds)                                                                                               
                                                                                                                                    
Device Statistics (GP Log 0x04) not supported                                                                                       
                                                                                                                                    
SATA Phy Event Counters (GP Log 0x11)                                                                                               
ID      Size     Value  Description                                                                                                 
0x0001  2            0  Command failed due to ICRC error                                                                           
0x0002  2            0  R_ERR response for data FIS                                                                                 
0x0003  2            0  R_ERR response for device-to-host data FIS                                                                 
0x0004  2            0  R_ERR response for host-to-device data FIS                                                                 
0x0005  2            0  R_ERR response for non-data FIS                                                                             
0x0006  2            0  R_ERR response for device-to-host non-data FIS                                                             
0x0007  2            0  R_ERR response for host-to-device non-data FIS                                                             
0x0008  2            0  Device-to-host non-data FIS retries                                                                         
0x0009  2            5  Transition from drive PhyRdy to drive PhyNRdy                                                               
0x000a  2            6  Device-to-host register FISes sent due to a COMRESET                                                       
0x000b  2            0  CRC errors within host-to-device FIS                                                                       
0x000f  2            0  R_ERR response for host-to-device data FIS, CRC                                                             
0x0012  2            0  R_ERR response for host-to-device non-data FIS, CRC                                                         
0x8000  4      7236861  Vendor specific

Par contre, je ne sais pas pourquoi, je n'arrive pas à remonter dans le temps dans le terminal

Pitfrr · Apr 30, 2020

Si au niveau des disques ça semble correct au niveau de la température (et de l'historique) alors je ne m'inquièterai pas plus que ça.
Sauf si l'erreur apparait régulièrement.

Il semblerait que les alertes de température SMART apparaissent dans le log /var/log/messages (pour FreeNAS 9.10.x au moins). Ca peut intéressant d'aller y jeter un coup d'oeil.

Rosin0416 · May 9, 2020

Bonjour,
Je n'ai pas pu me repencher sur le problème jusqu'à aujourd'hui.
En effet, les alertes température apparaissent bien dans le dossier /var/log/message.
Voilà ce que j'ai trouvé en date du 28 Avril :

Code:

Apr 27 03:13:53 freenas upsd[2850]: UPS [ups] data is no longer stale
Apr 28 00:00:00 freenas syslog-ng[2042]: Configuration reload request received, reloading configuration;
Apr 28 00:43:04 freenas smartd[3018]: Device: /dev/ada2, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/40!)
Apr 28 00:43:04 freenas smartd[3018]: Device: /dev/ada2, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/40!)
Apr 28 00:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/40!)
Apr 28 00:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/40!)
Apr 28 01:13:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41!)
Apr 28 01:13:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41!)
Apr 28 01:13:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41!)
Apr 28 01:13:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41!)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada4, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40!)
Apr 28 01:43:05 freenas smartd[3018]: Device: /dev/ada4, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40!)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada4, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada4, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada5, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40!)
Apr 28 02:13:05 freenas smartd[3018]: Device: /dev/ada5, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 25/40!)
Apr 28 02:30:44 freenas upsd[2850]: Data for UPS [ups] is stale - check driver
Apr 28 02:30:45 freenas upsmon[2858]: Poll UPS [ups] failed - Data stale
Apr 28 02:30:45 freenas upsmon[2858]: Communications with UPS ups lost
Apr 28 02:30:48 freenas upsd[2850]: UPS [ups] data is no longer stale
Apr 28 02:30:50 freenas upsmon[2858]: Communications with UPS ups established
Apr 28 02:43:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:43:05 freenas smartd[3018]: Device: /dev/ada2, Temperature 41 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)
Apr 28 02:43:05 freenas smartd[3018]: Device: /dev/ada3, Temperature 40 Celsius reached critical limit of 40 Celsius (Min/Max 26/41)

L'alerte à eu lieu en plein milieu de la nuit.
Cela se pourrait bien que ce soit un scrub.
Comment puis-le vérifier dans les log ? car via l'interface web, je ne peux pas le voir, ils sont configurés pour se faire tous les 86 jours et pas à une date fixe.

Merci

Pitfrr · May 10, 2020

Dans l'interface, quand on clique sur Storage et qu'on sélectionne le volume puis qu'on clique sur l'icône en bas Volume status alors il affiche la date d'exécution du dernier scrub.

Une autre manière est de passer par la ligne de commande, en utilisant zpool status.

Voici un exemple avec deux volumes: un volume Data et un freenas-boot:

Code:

[root@freenas] ~# zpool status
  pool: Data
 state: ONLINE
status: Some supported features are not enabled on the pool. The pool can
        still be used, but some features are unavailable.
action: Enable all features using 'zpool upgrade'. Once this is done,
        the pool may no longer be accessible by software that does not support
        the features. See zpool-features(7) for details.
  scan: scrub repaired 0 in 7h12m with 0 errors on Sun Apr 19 07:12:13 2020
config:

        NAME                                                STATE     READ WRITE CKSUM
        Nasse                                               ONLINE       0     0     0
          raidz2-0                                          ONLINE       0     0     0
            gptid/f487df71-2158-12ca-7ed7-000a92f71722.eli  ONLINE       0     0     0
            gptid/ecf7ecca-2953-12ca-1acd-000a92f71722.eli  ONLINE       0     0     0
            gptid/7ced36e7-22cc-12ca-7d13-000a92f71722.eli  ONLINE       0     0     0
            gptid/75c1ae22-28c4-12ca-b29d-000a92f71722.eli  ONLINE       0     0     0
            gptid/3b5c39c5-26a3-12ca-d687-000a92f71722.eli  ONLINE       0     0     0
            gptid/837dfea8-26d7-12ca-6a8c-000a92f71722.eli  ONLINE       0     0     0

errors: No known data errors

  pool: freenas-boot
 state: ONLINE
  scan: scrub repaired 0 in 0h0m with 0 errors on Sun May 10 03:45:13 2020
config:

        NAME        STATE     READ WRITE CKSUM
        freenas-boot  ONLINE       0     0     0
          da0p2     ONLINE       0     0     0

errors: No known data errors

Pour le volume Data, on peut voir à la ligne scan la dernière exécution, c'est à dire le 19 avril à 7h et il a duré 7h.
Le scrub est planifié à 0h (tous les 35 jours), cela correspond bien.
Ensuite dans la partie reporting on peut retrouver aussi les graphes d'activité (CPU et disques, ici je n'en ai mis qu'un mais elle est identique pour les autres):

Pitfrr · May 10, 2020

Ah oui et pour la température...

Comme on le voit dans les logs c'est juste un léger dépassement de la température alors je dirai que ce n'est pas bien critique.
Mais c'est bien d'avoir les alertes et de surveiller cela.

Je sais que dans mon cas, l'été, les disques montent un peu plus car la circulation d'air n'est pas terrible là où est le serveur et j'ai donc des dépassements de température.
Pour l'instant je ne peux pas y faire grand chose non plus donc je surveille et si ça devait monter trop haut ou durer trop longtemps alors je prendrai des mesures.

Ce qui est pas mal, c'est qu'on peut configurer différents seuils dans le service SMART:

Et c'est bien que j'ai regardé car je n'ai pas remis les valeurs que je souhaite pour le monitoring!! Je crois que j'ai joué un peu avec et j'ai pas remis comme il faut!

Voici ce que j'utilise:
Informational: 40°C
Critical: 42°C

Je n'utilise pas le champ Difference.... Je n'y ai pas réfléchi encore...

Et je n'utilise pas le champ avec l'email non plus car je suis suffisamment souvent connecté à l'interface web donc pas besoin.

Rosin0416 · May 10, 2020

Super merci pour toutes les infos.
Du coup c'est bien ça :

Code:

[root@freenas ~]# zpool status                                                                                                    
  pool: DOC                                                                                                                     
state: ONLINE                                                                                                                    
  scan: scrub repaired 0 in 2h33m with 0 errors on Tue Apr 28 02:33:15 2020                                                        
config:                                                                                                                            
                                                                                                                                   
        NAME                                                STATE     READ WRITE CKSUM                                            
        DOC                                                ONLINE       0     0     0                                            
          raidz2-0                                          ONLINE       0     0     0                                            
            gptid/e711e7e-a209-16e6-9046-077910a6ea654.eli ONLINE       0     0     0                                            
            gptid/e711e7e-a209-16e6-9046-077910a6ea654.eli  ONLINE       0     0     0                                            
            gptid/e711e7e-a209-16e6-9046-077910a6ea654.eli  ONLINE       0     0     0                                            
            gptid/e711e7e-a209-16e6-9046-077910a6ea654.eli  ONLINE       0     0     0                                            
                                                                                                                                   
errors: No known data errors

J'ai à peu près les mêmes caractéristiques que toi pour les réglages smart. Moi l'alerte est à 40°C, c'est peut-être un peu bas!
ps : tu mentionnes une température critique de 42°C et tu as mis 45°C dans tes réglages

Petite question : tu as mis un intervale de 35j entre tes scrubs, alors que j'en fais presque 3 trois moins souvent. Est-ce qu'ils sont trop espacés ?

Pitfrr · May 10, 2020

Rosin0416 said:
ps : tu mentionnes une température critique de 42°C et tu as mis 45°C dans tes réglages

Oui, c'est ce que je disais dans ma remarque (mais c'était pas très clair): j'ai fait la capture d'écran et après j'ai regardé les paramètres SMART et c'est là que je me suis rendu compte que la configuration n'était pas comme je le voulais!

Donc heureusement que j'ai fait la capture d'écran! (et après mon post j'ai changé la configuration)

Scrub:
Une bonne pratique c'est de faire des scrubs en gros une fois par mois... par défaut je crois que c'est 35 jours et j'ai laissé cette valeur qui est bien. Perso, 86 jours entre deux scrubs, je trouve que ça fait un peu long...
Je planifie aussi des tests SMART long une fois par mois et des SMART courts toutes les semaines pour chaque disque.

Rosin0416 · May 10, 2020

Ok merci pour toutes ces infos.
Du coup je vais modifier mes paramètres dans ce sens. On ne trouve pas forcément beaucoup de préco/bonne pratiques pour ce type de tests (smart long, court, scrub,...)

Pitfrr · May 10, 2020

Rosin0416 said:
On ne trouve pas forcément beaucoup de préco/bonne pratiques pour ce type de tests

Ah ben si quand même... :)
Dans la traduction des recommandations matérielles justement, il y a aussi des bonnes pratiques qui sont proposées également, c'était justement l'idée. :p

Rosin0416 · May 10, 2020

yah super!
Du coup c'est vrai que mon install à maintenant presque 4 ans. A l'époque je ne suis pas sur qu'un tel article existait.
Et quand on a une install qui tourne, on va va pas forcément voir s'il y a des nouveaux tuto...
Là j'attends la sortie de la nouvelle version qui sera truenas core je crois, pour refaire toute mon installation.
Hormis l'interface utilisateur, je ne sais pas si je verrais de grandes différences...

Rosin0416 · May 10, 2020

A la lecture de ton article, et si je peux me permettre des suggestions, à l'époque je mettais beaucoup posé de question sur :
_l'activation de la compression sur les disques
_l'onglet system > sytem dataset, s'il fallait avoir un disque déporté, ...
Voilà.

Important Announcement for The TrueNAS Community.

SOLVED alerte critique température

Rosin0416

Patron

Pitfrr

Wizard

Rosin0416

Patron

Pitfrr

Wizard

Rosin0416

Patron

Pitfrr

Wizard

Pitfrr

Wizard

Rosin0416

Patron

Pitfrr

Wizard

Rosin0416

Patron

Pitfrr

Wizard

Rosin0416

Patron

Rosin0416

Patron

Similar threads