De nouveau un problème de perte de disque ???

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
bonjour,
J'ai un Truenas TrueNAS-13.0-U1 qui tourne depuis 1.5 mois avec un seul mirroir de 2 * 2To Seagate ironwolf.
Ce jour je découvre une alerte sur le seul volume1 existant en mode DEGRADED avec le statut suivant:
1658077948491.png

1658078010926.png

le disque ada2 à disparu seul et en console j'ai les indications suivantes:
1658078142458.png

Les disques DATA sont connectés avec des cables SATA de qualité avec verrouillage et sont seuls sur une petite carte controleur neuve insérée en PCIE 1X sur la carte mère. ahci1: <Marvell 88SE9215 AHCI SATA controller> port 0xe050-0xe057,0xe040-0xe043,0xe030-0xe037,0xe020-0xe023,0xe000-0xe01f mem 0xff640000-0xff6407ff irq 16 at device 0.0 on pci2. ahci1: AHCI v1.00 with 4 6Gbps ports, Port Multiplier supported with FBS

Le disque de Boot ada0 est un SSD Samsung de 128Go connecté au controleur de la carte mère directement. (aucun souci de ce coté là)
1658078990011.png


Pensez vous que le disque retiré du volume soit HS ? j'ai commandé un nouveau disque Seagate Ironwolf de 2 To pour en avoir le coeur net et remplacer le disque, mais pensez vous que la perte du disque signifie qu'il est réeellement HS?
Est ce que le problème de perte du disque ada2 peut être liée au fait de ne pas utiliser de memoire ECC ? (je n'y crois pas car j'ai d'autres machines avec le même type de config sans perte de disque).

Tous vos avis et pistes d'éventuels controles sont les bienvenus.
Merci d'avance pour vos futures contributions.
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Bonjour,

Alors je ne serai pas surpris que ce soit ta carte marvell qui soit en cause... Et l'utilisation ou non de la mémoire ECC n'est très certainement pas en cause ici.
J'avais une carte mère AsRock C2750 avec deux contrôleurs marvell (9172 et 9230) et j'avais régulièrement des disques qui disparaissaient! Cette carte dispose également d'un contrôleur Intel avec lequel je n'ai jamais eu de problème. Et lorsque j'ai rajouté une carte HBA (LSI 9211), je n'ai plus eu ces problèmes.
Je vois dans ta signature que tu as aussi une carte C2750... Tu parles de cette carte là et des contrôleurs associés? Ou bien est-ce un autre contrôleur (tu parles de carte PCIe)?
De manière générale, il est conseillé de rajouter des cartes HBA et non contrôleurs SATA (de type Marvell ou exotiques) car peu fiables.

Tu peux toutefois vérifier quelques petites choses pour exclure un problème de disque: normalement après un redémarrage tu devrais retrouver ton disque (et le volume)? Que donne un SMART long sur le disque en question?
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Non ce n'est pas sur le serveur décrit en signature . C'est une tour avec une carte asrock mais pas de serveur avec 16 Go de Ram non ECC, et les 3 disques dont 1 sdd de boot et les 2 seagate ironwolf pour le volume DATA, le CPU est un AMD A4-5300 APU with Radeon(tm) HD Graphics.

Ce soir le disque ada2 est réapparu seul , je l'ai remis en ligne , il s'est resilverisé, et le voulme est de nouveau online.
Je comprends pas ce comportement aléatoire...
comme tu me l'as demandé j'ai lancé un smart long sur ada2 c'est censé terminer à 0h17
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Je comprends pas ce comportement aléatoire...
Ce comportement est en effet aléatoire mais il est très révélateur d'un problème similaire que j'avais avec un contrôleur Marvell.
J'ai constaté au début que ça arrivait de temps en temps et, avec le temps, plus fréquemment (ce qui est un peu étonnant mais bon).
J'ai pu identifier formellement le contrôleur en branchant le disque sur un autre contrôleur (Intel celui là) sans que le problème ne réapparaisse.
Et, lorsque j'ai rajouté une carte HBA, ce problème n'est jamais revenu.

Lorsque le disque disparaît, regarde aussi au niveau de la console TrueNAS si tu n'as pas des messages du type:
(da0:umass-sim0:0:0:0): CAM status: CCB request completed with an error (da0:umass-sim0:0:0:0): Retrying command (da0:umass-sim0:0:0:0): WRITE(10). CDB: 2a 00 00 71 54 22 c0 00 b0 08 00

Ca peut varier dans le contenu du message mais cela devrait apparaître plusieurs fois dans la console.
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
si le problème revient vite , je tacherai de voir si j'ai des messages qui ressemblent à ceux que tu as postés.

pour les cartes HBA je ne sais pas quoi prendre , est ce que ce genre de modèle est valable?
je ne veux pas mettre une fortune c'est pour 2 disques en mirroir.

la resultat smart est sans soucis pour ada2
1658294136829.png
 
Last edited:

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
le resultat smart est sans soucis pour ada2
Peux-tu poster les détails de smartctl -a /dev/ad2 pour qu'on puisse voir les attributs SMART?

Normalement (mais bon en ce moment, rien n'est normal avec les prix! :-O) une carte HBA se trouve d'occas' pour 50€.
Voici quelques exemples sur eBay (mais bon avec les 20€ de port c'est abusé) ou leboncoin.
Le "problème" c'est qu'il vaut peut-être mieux acheter une carte qui soit déjà flashée en mode IT (on peut la flasher par la suite mais, selon ses affinités techniques, c'est plus ou moins compliqué).
Pour seulement deux disques en miroir, il y a peut-être des cartes contrôleur Intel qui fonctionneraient? Mais faut être sûr de son coup... et le prix ne sera peut-être pas si intéressant que ça (comparé à une carte HBA).

Voici également quelques lectures intéressantes à ce sujet avant d'acheter tête baissée:
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Merci pour tous tes conseils et interet à mes soucis :wink::smile:

Ci dessous le résultat demandé


Code:
[~]# smartctl -a /dev/ada2
smartctl 7.2 2021-09-14 r5236 [FreeBSD 13.1-RELEASE amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST2000VN004-2E4164
Serial Number:    Z52C02J8
LU WWN Device Id: 5 000c50 0e4a38f7a
Firmware Version: SC60
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5900 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Jul 20 08:37:54 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  107) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 257) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x10bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   118   100   006    Pre-fail  Always       -       169755904
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       41
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   064   060   030    Pre-fail  Always       -       2678352
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1035
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       28
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   059   045    Old_age   Always       -       27 (Min/Max 24/30)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       28
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       44
194 Temperature_Celsius     0x0022   027   041   000    Old_age   Always       -       27 (0 19 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 1
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 435 hours (18 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 48 c7 4b 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ea 00 00 00 00 00 40 00  11d+08:44:12.882  FLUSH CACHE EXT
  61 00 08 98 55 d9 48 00  11d+08:44:12.881  WRITE FPDMA QUEUED
  61 00 48 f0 70 96 42 00  11d+08:44:12.881  WRITE FPDMA QUEUED
  61 00 10 40 0e 56 42 00  11d+08:44:12.880  WRITE FPDMA QUEUED
  61 00 48 30 8b f0 40 00  11d+08:44:12.880  WRITE FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      1026         -
# 2  Short offline       Completed without error       00%       851         -
# 3  Short offline       Completed without error       00%       683         -
# 4  Short offline       Completed without error       00%       515         -
# 5  Short offline       Completed without error       00%       390         -
# 6  Short offline       Completed without error       00%       222         -
# 7  Short offline       Completed without error       00%        80         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
    
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Les résultats SMART ont l'air bien.
Le petit truc qui me chiffonne c'est une erreur loggée après 435h d'utilisation... J'arrive pas à savoir exactement ce que c'est comme type d'erreur.
Peut-être un problème de communication avec le contrôleur (justement!)...
En tout cas, y'a eu qu'une erreur de loggée et depuis (bon il n'est qu'à 1035h) il n'y en a pas eu d'autre.

Par contre, cela n’apparaît pas encore, mais je suppose que tu as des tests SMART longs planifiés?
Les courts semblent planifiés 1 fois par semaine on dirait, les longs devraient être (enfin c'est conseillé) une fois par mois en gros (donc toutes les 744 heures en gros).

A la lecture des informations SMART, je penche fortement du côté du contrôleur Marvell qui fait des siennes... :smile: (alors "il ne fait pas des siennes" c'est juste le driver pour TrueNAS qui n'est pas stable en fait)

Comme je le disais précédemment, si cela se reproduit regarde:
  • Si tu vois les messages dans la console
  • Si le nombre d'erreur ATA error count dans le rapport SMART a augmenté
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Par contre, cela n’apparaît pas encore, mais je suppose que tu as des tests SMART longs planifiés?
Il y en avait pas de programmé, c'est ajouté, j'ai mis une tache mensuelle commune pour ada1 et 2

comment on connecte des disques SATA sur des cartes HBA? il faut une connectique spéciale?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
comment on connecte des disques SATA sur des cartes HBA? il faut une connectique spéciale?
Ah oui... :smile:
Généralement, les cartes HBA (genre LSI9211-8) ont deux connecteurs sur la carte (mini-SAS je crois). Sur ces connecteurs on peut brancher des cables qui permettent de connecter 4 disques SATA ou SAS par connecteur mini-SAS.
Il faut donc faire attention selon les disques que l'on souhaite connecter à bien prendre le bon cable SAS ou SATA (exemple de cable SATA).
Soit le cable fourni est déjà au bon format, soit faut en acheter un qui va bien...
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Salut Pitfrr,
lors d'une de tes précédentes réponses tu parlais de flasher la carte IT , ne sachant pas de quoi il s'agit, est ce obligatoire ? à quoi cela sert?
Si j'achetes une care LSI 9211 qui n'est pas flashée IT cela ne fonctionnera pas?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Si tu achètes une carte contrôleur non flashée en mode IT, elle sera avec le firmware d'origine qui ne permettra pas de la configurer en HBA (donc en gros de simplement passer les disques tels quel à l'OS, il faudra les configurer en RAID-quelque-chose et ça c'est pas bon pour TrueNAS).
Après je ne connais pas le firmware d'origine des LSI mais je crois qu'il ne permet pas de passer les disques directement (sinon on s'embêterait pas! :smile:).
En soi, "ça marchera" mais TrueNAS ne pourra pas voir le disque directement et indépendemment et ça, on ne veut pas.
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Merci pour le détail et donc s'il faut flasher la carte, comment on fait? et ou trouve t-on ce qu'il faut pour le faire ?
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
J'ai vu cette carte, tu penses que çà peut le faire?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Oui, cette carte peut le faire je pense.
Par contre à noter le "4i" dans la référence, ça veut dire qu'on ne peut y brancher que 4 disques.
D'ailleurs, sur la photo, il n'y a qu'un connecteur (et sur ces connecteurs on branche 4 disques).

Perso, je partirai sur une "8i" avec deux connecteurs. Je pense que la différence de prix n'est pas très importante (dans mon souvenir une carte de ce type est de l'ordre de 75€, même si (mais je me trompe peut-être) je crois en avoir acheté une à 50€ déjà). Sur leur site la 8i est à 77€, je pense que ça vaut plus le coup. Si 4 connecteurs ne sont pas nécessaire pour le moment, ça laisse plus de possibilité d'évolution (pour le stockage) dans le futur.

Je n'ai pas trouvé de mention concernant le firmware de la carte... IT ou pas. Donc il faudra éventuellement la flasher.
Après, je sais que d'occas (genre sur ebay ou leboncoin) on peut trouver des cartes déjà flashées en mode IT, ce qui est pratique.
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Ok , pour ce qui me concerne sur ce Truenas, il n'y aura pas plus de 2 disques en miroir donc la 4i me parait suffisante pour un serveur low cost:smile:

Je verrai si j'arrive à touver sur LBC en mode IT
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
Salut,
j'ai reçu aujourd'hui la carte du #14 je l'ai mise en place , elle est bien vue par le bios, je lui ai connecté 2 disques neufs vierges mais ils ne sont pas vus donc une fois sous TN13 je n'ai aucun disque. As tu une idée ? c'est ma première fois avec ce type de carte. elle a été flashée IT par le vendeur.
j'ai reçu 2 nappes SAS vers SATA je les ai changées mais sans aucune amélioration.
 
Last edited:

Redcoat

MVP
Joined
Feb 18, 2014
Messages
2,925
You needed an "SFF-8087 to SATA forward breakout cable" to connect from your HBA to the two HDD's

1662411491780.png


and a couple of SATA power cables to supply power to the HDD's.

Connect those and power up the server - the HBA should be detected and the drives also be shown at the beginning of the boot process.
 

profwalken

Patron
Joined
Nov 19, 2013
Messages
410
HI @Redcoat , Thanks for answer , all you describe has been tryied but I can't see devices connected, during boot LSI controler is seen, I can go in LSI settings if I want, but disks are never seen, if I plug them directly to sata ports coming from MB then they are here. Disks are completely new just out of the box .
I've a pair of SAS to SATA cables and tried both with no more success
 

Redcoat

MVP
Joined
Feb 18, 2014
Messages
2,925
Top