Zwei Ausfälle in 4 Wochen

tweyhr3156

Cadet
Joined
Sep 24, 2019
Messages
3
Hallo zusammen,

ich bin neuer Anwender mit FreeNAS und bisher richtig begeistert! Bis...

...bis vor ca. 4 Wochen unsere V-Server, die ihre .vhdx-Dateien per iSCSI auf dem NAS ablegen, einen bluescrenn gezeigt haben.
In einem Pool aus 4 SSDs meldet eine Platte Chekcsummenfehler. Im Protokoll folgender Fehler:
The volume pool_ssd state is DEGRADED: One or more devices are faulted in response to persistent errors. Sufficient replicas exist for the pool to continue functioning in a degraded state.

Code:
pool: pool_ssd
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
  scan: resilvered 3.19G in 0 days 00:00:12 with 0 errors on Tue Sep 24 08:45:49 2019
config:

        NAME                                            STATE     READ WRITE CKSUM
        pool_ssd                                        DEGRADED     0     0     0
          raidz1-0                                      DEGRADED     0     0     0
            gptid/d6465f5c-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/d9431758-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/db81d121-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/de7106c8-7b07-11e9-ab60-001b21df508d  FAULTED     0   0    119  too many errors

errors: No known data errors


Nach einem Neustart war alles wieder in bester Ordnung.

Bis heute morgen:
Code:
pool: pool_ssd
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
  scan: resilvered 3.19G in 0 days 00:00:12 with 0 errors on Tue Sep 24 08:45:49 2019
config:

        NAME                                            STATE     READ WRITE CKSUM
        pool_ssd                                        DEGRADED     0     0     0
          raidz1-0                                      DEGRADED     0     0     0
            gptid/d6465f5c-7b07-11e9-ab60-001b21df508d  FAULTED     480   751    130  too many errors
            gptid/d9431758-7b07-11e9-ab60-001b21df508d  FAULTED       194     315     0  too many errors
            gptid/db81d121-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/de7106c8-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     119

errors: No known data errors


Auch hier wieder nach einem Neustart alles ok.
Während ich diesen Beitrag schreibe folgende Ausgabe:

Code:
  pool: pool_ssd
 state: DEGRADED
status: One or more devices are faulted in response to persistent errors.
        Sufficient replicas exist for the pool to continue functioning in a
        degraded state.
action: Replace the faulted device, or use 'zpool clear' to mark the device
        repaired.
  scan: resilvered 3.19G in 0 days 00:00:12 with 0 errors on Tue Sep 24 08:45:49 2019
config:

        NAME                                            STATE     READ WRITE CKSUM
        pool_ssd                                        DEGRADED     0     0     0
          raidz1-0                                      DEGRADED     0     0     0
            gptid/d6465f5c-7b07-11e9-ab60-001b21df508d  FAULTED     21   203    74  too many errors
            gptid/d9431758-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/db81d121-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0
            gptid/de7106c8-7b07-11e9-ab60-001b21df508d  ONLINE       0     0     0

errors: No known data errors


Cheksummenfehler gibt es auf der letzten Platte auf einmal keine mehr.
Die erste SSD hat wieder Lese- und Schreibfehler.
Das RAID funktioniert aber noch.

Folgende Ausstattung haben wir:
FreeNAS-11.2-U4.1
Server mit Supermicro X11SPi-TF Mainboard und Intel Xeon Silver 4110
2x 16GB ECC Registered DDR4
Broadcom LSI SAS3 9300-4i4e HBA Controller
4x Samsung SSD 860 EVO 2TB 2.5in SATA 6 Gb/
3x 4TB WD Ultrastar DC HC310

smartctl liefert für alle vier Platten keine Fehler.

Ich weiß nicht mehr weiter.
Einen defekt der SSD schließe ich mal aus.
Es gibt zwar schon FreeNAS-11.2-U6, in den Release-notes habe ich nichts passendes gefunden.
Und da der Server produktiv im Einsatz ist, habe ich bisher von einem Update abgesehen.

Kennt jemand dieses Verhalten oder hat eine Idee, was ich tun kann?

Danke für eure Antworten.

VG Thomas
 

JoGi65

Dabbler
Joined
Feb 21, 2016
Messages
45
Hallo,

ich hatte einmal ein ähnliches Problem, allerdings mit einem Synology. Damals Samsung 840 Pro.
Es war eine Inkompatibilität von SSD und Controller. Ich konnte es lange nicht glauben. Hast Du ev. andere SSDs zur Verfügung, bzw. hast Du die SSDs auf dem LSI?
Wenn auf dem LSI versuche mal die Board Anschlüsse.
 

Kurti2k

Contributor
Joined
Mar 9, 2014
Messages
155
welcher fw stand ist auf dem lsi 9300 controller ?
wieviel tbw haben die samsung evos schon ?

mfg amrcel
 

tweyhr3156

Cadet
Joined
Sep 24, 2019
Messages
3
So, jetzt endlich mal eine Antwort von mir.
Ich habe die SSDs getauscht gegen 4x Samsung PM883 SSD - 2.5" SATA 6 Gb/s und die Fehler waren erst mal weg.
Allerdings habe ich auch keinen Nutzdaten mehr auf den SSDs, so dass der Traffic entsprechend niedrig ist.
Letzte Woche erneut ein degraded RAIDZ, dieses mal nicht die SSDs, sondern die HDDs. Gleiches Fehlerbild. wie oben beschrieben. Nach Neustart wieder alles ok.

Heute wieder. In dem log-file unter /var/log/messages jedes mal folgende Meldungen (Die Laufwerksbezeichnung ändert sich, der Rest bleibt gleich):
Nov 4 08:59:23 innosrv09 (da5:mpr0:0:13:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00 length 0 SMID 606 Aborting command 0xfffffe00017b3720
Nov 4 08:59:23 innosrv09 mpr0: Sending reset from mprsas_send_abort for target ID 13
Nov 4 08:59:23 innosrv09 mpr0: Unfreezing devq for target ID 13
Nov 4 08:59:23 innosrv09 (da5:mpr0:0:13:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00
Nov 4 08:59:23 innosrv09 (da5:mpr0:0:13:0): CAM status: Command timeout
Nov 4 08:59:23 innosrv09 (da5:mpr0:0:13:0): Retrying command
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): SYNCHRONIZE CACHE(10). CDB: 35 00 00 00 00 00 00 00 00 00
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): CAM status: SCSI Status Error
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): SCSI status: Check Condition
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): SCSI sense: UNIT ATTENTION asc:29,0 (Power on, reset, or bus device reset occurred)
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): Error 6, Retries exhausted
Nov 4 08:59:24 innosrv09 (da5:mpr0:0:13:0): Invalidating pack

@Kurti2k
> welcher fw stand ist auf dem lsi 9300 controller ?
Adapter Selected is a Avago SAS: SAS3008(C0)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS3008(C0) 05.00.00.00 05.00.00.06 08.11.00.00 00:b3:00:00

Vor dem SSD-Tausch habe ich noch freeNAS-11.2-U6 eingespielt.

> wieviel tbw haben die samsung evos schon ?
Kann ich dir nicht sagen, da die SSDs schon wieder beim Lieferant sind. Aber die HDDs und SSDs sind jetzt 3 Monate verbaut. Davon ca. 6 Wochen produktiv. Und der Fehler tritt jetzt auch an den HDDs auf.

Gibt es denn einen bezahlten Support für freeNAS?
Ich habe eine Anfrage an ixSystems gestellt, der hat mich nur an das Forum verwiesen.

VG
Thomas
 

Fredda

Guru
Joined
Jul 9, 2019
Messages
608
Adapter Selected is a Avago SAS: SAS3008(C0)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS3008(C0) 05.00.00.00 05.00.00.06 08.11.00.00 00:b3:00:00
Das scheint eine ziemlich alte Firmware zu sein. Aber bitte poste mal die Ausgabe von sas3flash -list, das sagt deutlich mehr aus.
 

Kurti2k

Contributor
Joined
Mar 9, 2014
Messages
155
ja ich tippe auch auf firmware

mfg marcel
 

emk2203

Guru
Joined
Nov 11, 2012
Messages
573
Firmware oder Controllerfehler. Auf jeden Fall die neueste Firmware flashen, wenn möglich, anderen Controller testen.
 

tweyhr3156

Cadet
Joined
Sep 24, 2019
Messages
3
So, ich habe mal die aktuelle Firmware drauf gemacht:
Adapter Selected is a Avago SAS: SAS3008(C0)

Controller Number : 0
Controller : SAS3008(C0)
PCI Address : 00:b3:00:00
SAS Address : 500605b-0-0e6d-c8c0
NVDATA Version (Default) : 0e.01.00.08
NVDATA Version (Persistent) : 0e.01.00.08
Firmware Product ID : 0x2221 (IT)
Firmware Version : 16.00.10.00
NVDATA Vendor : LSI
NVDATA Product ID : SAS9300-4i4e
BIOS Version : 08.37.00.00
UEFI BSD Version : 16.00.00.00
FCODE Version : N/A
Board Name : SAS9300-4i4e
Board Assembly : H3-25515-00G
Board Tracer Number : SP83108681

Jetzt bin ich mal gespannt, ob das ganze jetzt stabil läuft.

Danke schon mal für eure Hilfe!!
 
Top