Probleme mit ZFS Scrub

Status
Not open for further replies.

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Hallo Leute!

Erstmal vielen Dank fürs Lesen :)

Ich habe mir vor ca einem Jahr einen FreeNAS Server gebaut und bin vor etwa 2 Monaten auf ZFS umgestiegen. Das erstellte Volume nutzt die gesamte Kapazität der Platten aus, es gibt also keine Ausfallsicherung.

Jetzt zum Problem: Ich schaue nicht täglich auf mein GUI, hab aber gestern entdeckt das die gelbe Lampe leuchtet. Daraufhin hab ich einen Scrub durchgeführt (leider den ersten). Habe jetzt folgendes Ergebniss (2. Scrub läuft)

Code:
[root@freenas ~]# zpool status                                                  
  pool: Data                                                                    
 state: ONLINE                                                                  
status: One or more devices has experienced an error resulting in data          
        corruption.  Applications may be affected.                              
action: Restore the file in question if possible.  Otherwise restore the        
        entire pool from backup.                                                
   see: http://www.sun.com/msg/ZFS-8000-8A                                      
  scan: scrub in progress since Sat Feb  9 14:29:32 2013                        
        734G scanned out of 6.03T at 360M/s, 4h18m to go                        
        2.50K repaired, 11.88% done                                             
config:                                                                         
                                                                                
        NAME                                          STATE     READ WRITE CKSUM
        Data                                          ONLINE   1.25M     3     0
          gptid/f68b227c-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7327f85-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7d6a490-e2cc-11e0-9b72-f46d04d60f09  ONLINE   2.52M 19.5K   328
  (repairing)                                                                   
          gptid/f883fc40-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f8e326b6-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
                                                                                
errors: 13002457 data errors, use '-v' for a list 





Woher kommen die 13002457 Errors???

Wenn ich -v benutze passiert einfach gar nichts.
Anhand dieses Artikels: http://docs.oracle.com/cd/E19963-01/html/821-1448/gbbuw.html
habe ich versucht das Problem zu lösen - Kein Ergebnis (Die gelbe Lampe leuchtet immernoch)

Was übersehe ich?
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Eine Deiner Platten scheint den Geist aufzugeben (f7d6a490-e2cc-11e0-9b72-f46d04d60f09). Führe auf dieser mal einen SMART Test durch und poste das Ergebis hier (dann bitte in Code-Klammern)
Ohne Redundanz werden wohl einige Dateien beschädigt sein, der Parameter -v sollte diese auflisten (zpool status -v). Evtl. mal warten bis der scrub durchgelaufen ist und dann nochmal versuchen.

Eigentlich sollte FreeNAS von Haus aus alle 30 Tage einen scrub durchführen. In Zukunft solltest du vielleicht auch die E-Mail Benachrichtigungen konfigurieren, um in so einem Fall direkt benachrichtigt zu werden..
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Hallo!

Danke für die Antwort.
Wie kann ich denn aus (f7d6a490-e2cc-11e0-9b72-f46d04d60f09) herausfinden, welche der Platten betroffen ist?
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
glabel status sollte dir das Mapping von gptid zu ada anzeigen. Dann auf der entsprechenden Platte den smart test ausführen.
Weitere Infos zur Festplatte bekommst du z.b. mit diskinfo -v adaX.
smartctl -i /dev/adaX ist in dem Zusammenhang auch noch nützlich und zeigt ein paar Festplatteninfos.
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Also ich habe herausgefunden, dass die problematische Disc wohl ada2 ist.
Der SMART Test von ada2 hat ungefähr 6 Stunden gedauert und als Ergebnis folgendes ausgegeben:

Code:
=== START OF READ SMART DATA SECTION ===                                        
SMART Self-test log structure revision number 1                                 
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error                                                                 
# 1  Extended offline    Completed without error       00%      4193         -  
# 2  Short offline       Completed without error       00%      4187         -  
# 3  Extended offline    Aborted by host               90%      4186         -  



Das heißt ja, dass die Platte scheinbar in Ordnung ist.

zpool status gibt jetzt folgendes aus:

Code:
[root@freenas ~]# zpool status -v                                               
  pool: Data                                                                    
 state: ONLINE                                                                  
status: One or more devices has experienced an error resulting in data          
        corruption.  Applications may be affected.                              
action: Restore the file in question if possible.  Otherwise restore the        
        entire pool from backup.                                                
   see: http://www.sun.com/msg/ZFS-8000-8A                                      
  scan: scrub repaired 2.50K in 7h14m with 11772829 errors on Sat Feb  9 21:44:2
0 2013                                                                          
config:                                                                         
                                                                                
        NAME                                          STATE     READ WRITE CKSUM
        Data                                          ONLINE       0     0     0
          gptid/f68b227c-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7327f85-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7d6a490-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f883fc40-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f8e326b6-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0



Die gelbe Lampe leuchtet immernoch.


Ich würde jetzt einen langen Smart Test des gesamten Systems machen...richtig?
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Mit smartctl -c dev/ada* habe ich herausgefunden, dass es auch ada2p1 und ada2p2 gibt, sind das Partitionen? Denn glabel gab ada2p2 als die beschädigte Platte aus.

wenn ich jetzt aber smartctl -t long /dev/ada2p2 -d sat mache, sagt er no such file or directory

...?
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Genau ada2p1 und ada2p2 sind Partitionen (Swap und ZFS). smartctl arbeitet nur auf dem ganzen Device (also ada2).

Kannst du mal den output von smartctl -a /dev/ada2 posten?
Und versuch mal zpool status -v Data, da sollte eigentlich sowas auftauchen:
Code:
1# zpool status -v temp
  pool: temp
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
  scan: none requested
config:

        NAME                                          STATE     READ WRITE CKSUM
        temp                                          ONLINE       0     0     0
          gptid/2dc6c899-2688-11e1-b2e7-00012e3351d3  ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:

        /mnt/temp/log/minidlna.log
        temp/share:<0x472>
        temp/share:<0x3a4>
        temp/share:<0x3c3>
        temp/share:<0x3d2>


Achja, welche ZFS + FreeNAS Version hast du laufen? Kannst du rausfinden mit: zpool upgrade -v und uname -a bzw. FreeNAS Version in der GUI.
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Code:
SMART Error Log Version: 1                                                      
No Errors Logged                                                                
                                                                                
SMART Self-test log structure revision number 1                                 
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
_of_first_error                                                                 
# 1  Extended offline    Completed without error       00%      4193         -  
# 2  Short offline       Completed without error       00%      4187         -  
# 3  Extended offline    Aborted by host               90%      4186         -  
                                                                                
SMART Selective self-test log data structure revision number 1                  
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS                                    
    1        0        0  Not_testing                                            
    2        0        0  Not_testing                                            
    3        0        0  Not_testing                                            
    4        0        0  Not_testing                                            
    5        0        0  Not_testing                                            
Selective self-test flags (0x0):                                                
  After scanning selected spans, do NOT read-scan remainder of disk.            
If Selective self-test is pending on power-up, resume after 0 minute delay.     
                                                                             


Code:
[root@freenas ~]# zpool status -v Data                                          
  pool: Data                                                                    
 state: ONLINE                                                                  
status: One or more devices has experienced an error resulting in data          
        corruption.  Applications may be affected.                              
action: Restore the file in question if possible.  Otherwise restore the        
        entire pool from backup.                                                
   see: http://www.sun.com/msg/ZFS-8000-8A                                      
  scan: scrub repaired 2.50K in 7h14m with 11772829 errors on Sat Feb  9 21:44:2
0 2013                                                                          
config:                                                                         
                                                                                
        NAME                                          STATE     READ WRITE CKSUM
        Data                                          ONLINE       0     0     0
          gptid/f68b227c-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7327f85-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f7d6a490-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f883fc40-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0
          gptid/f8e326b6-e2cc-11e0-9b72-f46d04d60f09  ONLINE       0     0     0



interessanterweise habe ich nach dem zpool status -v Data nicht die Möglichkeit weitere Befehle einzugeben.


Code:
[root@freenas ~]# uname -a                                                      
FreeBSD freenas.local 8.3-RELEASE-p4 FreeBSD 8.3-RELEASE-p4 #0 r241385M: Tue Oct
  9 16:12:04 PDT 2012     root@build.ixsystems.com:/usr/home/jpaetzel/8.3.0/os-b
ase/amd64/usr/home/jpaetzel/8.3.0/FreeBSD/src/sys/FREENAS.amd64  amd64   



Code:
[root@freenas ~]# zpool upgrade                                                 
This system is currently running ZFS pool version 28. 
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Die Zahl der Errors scheint sich zu ändern. Sie steigt.

Ich mache jetzt den 3. Scrub. Er repariert jedes mal ein bisschen was (jetzt grade zeigt er 2.98 M), die Zahl der Errors liegt nun bei 17725680.
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Leider fehlt bei der Smartausgabe noch einiges. Versuch mal smartctl -A /dev/ada2, um nur die SMART Attribute anzuzeigen.
Wenn du keine weiteren Befehle eingeben kannst, scheint ZFS sich aufzuhängen. Länger warten bringt auch nichts?
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Bei mir gibt es eine Scrollbar ;)
Alternativ die Shell über SSH benutzen.

Edit:
Wenn Smart keine Fehler anzeigt, könnte alternativ dein RAM Fehler produzieren. Am besten auch mal einen memory test durchlaufen lassen über Nacht.
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Hier die Ausgabe des SMART Tests:

Code:
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   192   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   253   171   021    Pre-fail  Always       -       1891
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1385
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4209
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       607
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       89
193 Load_Cycle_Count        0x0032   188   188   000    Old_age   Always       -       37880
194 Temperature_Celsius     0x0022   124   100   000    Old_age   Always       -       26
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   191   000    Old_age   Always       -       163
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0


Laut Google deuten die Attribute "Prefail" auf einen bevorstehenden Ausfall hin. Dementsprechend würde ich die Platte austauschen (hab noch Garantie). richtig?
Sehe ich es richtig, dass so lange wir uns im Prefail befinden noch KEIN Datenverlust stattgefunden hat?

Gibt es noch andere bemerkenswerte Erkenntnisse aus dem Test?
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Die Werte und der self test sehen alle soweit ganz gut aus. Nur UDMA_CRC_Error_Count macht mich ein bisschen stutzig. Kurzes googlen ergab, dass es evtl. Fehler am SATA Kabel könnten. Mal auswechseln?
Außerdem mal den RAM Test machen.

Laut Google deuten die Attribute "Prefail" auf einen bevorstehenden Ausfall hin. Dementsprechend würde ich die Platte austauschen (hab noch Garantie). richtig?
Sehe ich es richtig, dass so lange wir uns im Prefail befinden noch KEIN Datenverlust stattgefunden hat?

Vorsicht, nicht falsch interpretieren ;) Nur wenn dort Fehler auftreten wird es kritisch - in dem vorliegenden Test sind dort aber keine Fehler zu erkennen.
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Ich habe schon ein unglaublich schlechtes Gewissen, weil ich so blöde Fragen stelle; wie mache ich den RAM Test?

Google und SuFu halfen mir nicht :-/

SATA Kabel wird jetzt ausgetauscht.
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Kein Problem ;)
Lade dir mal die ISO von memtest86+ oder eine Sammlung von tools wie Ultimate Boot CD runter und brenne sie auf eine CD oder erstelle einen bootbaren USB stick. Davon kannst du dann den test starten (am besten mindestens 2 Stunden laufen lassen!)
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Ok danke.

Habe das Kabel gewechselt und einen erneuten Smart Test gemacht:
Code:
199 UDMA_CRC_Error_Count    0x0032   200   191   000    Old_age   Always       -
       164


Memtest mach ich morgen, wenn ich eine Tastatur habe :rolleyes:
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Dann ab jetzt mal beobachten, ob sich der Wert in Zukunft noch erhöht.
Bin mal gespannt auf das Ergebnis vom memtest..
 

tosoro

Dabbler
Joined
Feb 9, 2013
Messages
16
Ich habe ja die Möglichkeit 10 verschiedene Testmethoden für den RAM Test zu nutzen. Soll ich eine spezielle nehmen?
Nach dem einfach öffnen von Memtest86 und 1 Stund und 12 Minuten zeigt er bisher keinerlei Fehler.
 
Status
Not open for further replies.
Top