Platte defekt?

Status
Not open for further replies.

ottto

Explorer
Joined
Sep 2, 2013
Messages
83
Hallo zusammen,
mein System (FreeNAS 9.1) bringt mir folgende Meldung:
Code:
smartd[1356]: Device: /dev/ada3, 3 Currently unreadable (pending) sectors

Gibt es Möglichkeiten die Platte zu reparieren oder sollte man diese schnellstmöglichst tauschen?
Es sind 4 x 2TB in einem ZFS(raidz1) verbaut.
Danke.
Gruß.
ottto
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Hallo, poste mal die Smart Informationen der Festplatte (in Code Tags): smartctl -a /dev/ada3
Dort sieht man ein bisschen mehr zum aktuellen Status der Festplatte.
Desweiteren können Smart Tests Fehler erkennen. Falls du keine Smart Tests konfiguriert hast, kannst du diese auch manuell ausführen: smartctl -t short /dev/ada3 führt z.B. einen short test aus.

Allgemein sind 3 pending sectors erstmal nicht so wild, aber erste Anzeichen dafür, dass die Festplatte langsam den Geist aufgibt. Sobald sich die Anzahl der Fehler erhöht, solltest du sie definitiv austauschen. Wenn du auf Nummer siche rgehen willst, tausche sie schon jetzt aus.
 

ottto

Explorer
Joined
Sep 2, 2013
Messages
83
hier die Ausgabe:

Code:
 smartctl -a /dev/ada3
smartctl 5.41 2011-06-09 r3365 [FreeBSD 8.2-RELEASE-p6 amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
 
=== START OF INFORMATION SECTION ===
Model Family:    SAMSUNG SpinPoint F4 EG (AFT)
Device Model:    SAMSUNG HD204UI
Serial Number:    S2H7J90B620156
LU WWN Device Id: 5 0024e9 2057a6874
Firmware Version: 1AQ10001
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:  8
ATA Standard is:  ATA-8-ACS revision 6
Local Time is:    Fri Oct 11 16:39:27 2013 CEST
 
==> WARNING: Using smartmontools or hdparm with this
drive may result in data loss due to a firmware bug.
****** THIS DRIVE MAY OR MAY NOT BE AFFECTED! ******
Buggy and fixed firmware report same version number!
See the following web pages for details:
http://www.samsung.com/global/business/hdd/faqView.do?b2b_bbs_msg_id=386
http://sourceforge.net/apps/trac/smartmontools/wiki/SamsungF4EGBadBlocks
 
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
 
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
 
General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (  0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (19560) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (  2) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
SCT capabilities:              (0x003f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.
 
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG    VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate    0x002f  100  100  051    Pre-fail  Always      -      2394
  2 Throughput_Performance  0x0026  252  252  000    Old_age  Always      -      0
  3 Spin_Up_Time            0x0023  068  067  025    Pre-fail  Always      -      9855
  4 Start_Stop_Count        0x0032  100  100  000    Old_age  Always      -      30
  5 Reallocated_Sector_Ct  0x0033  252  252  010    Pre-fail  Always      -      0
  7 Seek_Error_Rate        0x002e  252  252  051    Old_age  Always      -      0
  8 Seek_Time_Performance  0x0024  252  252  015    Old_age  Offline      -      0
  9 Power_On_Hours          0x0032  100  100  000    Old_age  Always      -      19012
10 Spin_Retry_Count        0x0032  252  252  051    Old_age  Always      -      0
11 Calibration_Retry_Count 0x0032  252  252  000    Old_age  Always      -      0
12 Power_Cycle_Count      0x0032  100  100  000    Old_age  Always      -      30
181 Program_Fail_Cnt_Total  0x0022  089  089  000    Old_age  Always      -      251509130
191 G-Sense_Error_Rate      0x0022  100  100  000    Old_age  Always      -      1
192 Power-Off_Retract_Count 0x0022  252  252  000    Old_age  Always      -      0
194 Temperature_Celsius    0x0002  064  055  000    Old_age  Always      -      33 (Min/Max 17/46)
195 Hardware_ECC_Recovered  0x003a  100  100  000    Old_age  Always      -      0
196 Reallocated_Event_Count 0x0032  252  252  000    Old_age  Always      -      0
197 Current_Pending_Sector  0x0032  100  100  000    Old_age  Always      -      3
198 Offline_Uncorrectable  0x0030  252  252  000    Old_age  Offline      -      0
199 UDMA_CRC_Error_Count    0x0036  200  200  000    Old_age  Always      -      0
200 Multi_Zone_Error_Rate  0x002a  100  100  000    Old_age  Always      -      12
223 Load_Retry_Count        0x0032  252  252  000    Old_age  Always      -      0
225 Load_Cycle_Count        0x0032  100  100  000    Old_age  Always      -      30
 
SMART Error Log Version: 1
No Errors Logged
 
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline      Completed without error      00%    19012        -
 
Note: selective self-test log revision number (0) not 1 implies that no selective self-test has ever been run
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Completed [00% left] (0-65535)
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Danke.
Gruß.
ottto
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Für eine über zwei Jahre alte Platte sieht die Ausgabe sieht ganz normal aus.
Ich würde die Smart Werte im Auge behalten, aber die Festplatte noch nicht austauschen.

Hast du Smart E-Mail Reports eingerichtet?
 

ottto

Explorer
Joined
Sep 2, 2013
Messages
83
Hallo warri,
Smart E-Mail Report ist nicht eingerichtet. Hast Du eine Anleitung?

In der WebOberfläche hab ich gesehen, dass man dort SMART-Selbst-Tests, auf die einzelen Platten, einstellen kann. Wie oft macht da Sinn? Jede Woche? Sollte man dort den vollen oder den kleinen Test laufen lassen?
Danke.
Gruß.
ottto
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Hi,
Damit du Emails bei kritischen Smartmeldungen bekommst, einfach deine Emailadresse bei Services - SMART einstellen (http://doc.freenas.org/index.php/S.M.A.R.T.).
Ich persönlich würde kurze Smart Tests jede Woche, und lange Smart Tests gar nicht automatisiert durchführen - Ich vertraue hauptsächlich auf Smartfehler (die unabhängig erkannt werden) und ZFS Scrubs. Aber viele andere machen einen langen Smart Test z.B. einmal im Monat.

EDIT:
Damit Emails funktionieren, muss glaube ich auch der Emailversand korrekt konfiguriert sein. Findet sich im Tab "Email" bei Advanced Settings: http://doc.freenas.org/index.php/Settings
 

jensr

Dabbler
Joined
Oct 15, 2013
Messages
21
Ich kram mal den älteren beitrag raus weil es genau die hdd betrifft, zu der ich auch eine frage habe ;)

ich bekomme bei der platte partout nicht den load cycle count raus. selbst mit

Code:
smartctl -a /dev/ada0 | grep -Ei "(Load_Cycle_Count)"


sagt er mir nix ;(

Code:
smartctl -a /dev/ada1


ergibt bei mir

Code:
smartctl 6.1 2013-03-16 r3800 [FreeBSD 9.1-STABLE amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
 
=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJ1LZ400531
LU WWN Device Id: 5 0024e9 00346397a
Firmware Version: 1AA01118
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Wed Nov 20 23:32:56 2013 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
 
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
 
General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (13631) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 228) minutes.
Conveyance self-test routine
recommended polling time:        (  24) minutes.
SCT capabilities:              (0x003f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.
 
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10300
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2249
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16537
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2193
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   054   000    Old_age   Always       -       32 (Min/Max 13/33)
194 Temperature_Celsius     0x0022   070   051   000    Old_age   Always       -       30 (Min/Max 13/34)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       21621
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0
 
SMART Error Log Version: 1
ATA Error Count: 1
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
 
Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 d2 01 e7 cb e4 45   at LBA = 0x05e4cbe7 = 98880487
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 e3 05 cb e4 45 08      03:17:46.130  WRITE DMA
  ef 02 00 00 00 00 40 00      03:17:46.120  SET FEATURES [Enable write cache]
  ef aa 00 00 00 00 40 00      03:17:46.120  SET FEATURES [Enable read look-ahead]
  c6 00 10 00 00 00 40 00      03:17:46.120  SET MULTIPLE MODE
  ef 10 02 00 00 00 40 00      03:17:46.120  SET FEATURES [Enable SATA feature]
 
SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]
 
 
SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ohh jetzt seh ich gerrade das die platte wohl nen fehler hat oder wie ist das zu interpretieren?
Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

denke die sollte ich demnächst mal austauschen oder?

danke für eure hilfe
jens
 

warri

Guru
Joined
Jun 6, 2011
Messages
1,193
Hi, dein Beitrag past nicht wirklich zum Thema - ich werde ihn trotzdem beantworten ;)
Das nächste Mal einen eigenen Thread aufmachen.

Die Antwort ist ganz einfach: Deine Festplatte unterstützt das Load_Cycle_Count Attribut nicht. Nicht jeder Smart-Wert wird von jeder Festplatte ausgegeben, teilweise gibt es auch herstellerabhängige Attribute.
Du kannst stattdessen eventuell den Start_Stop_Count betrachten. Ich sehe da keinerlei Anlass zur Beunruhigung.

Die Festplatte hatte ganz am Anfang (erste Laufzeitstunde) mal einen ATA Fehler. Nicht weiter schlimm, könnte das Kabel gewesen sein. Ist jedenfalls schon sehr lange her (~1.8 Jahre), und seitdem hat es sich nicht wiederholt.

Du solltest definitiv ein wenig nachlesen, wie SMART Werte zu interpretieren sind.
Einfache indikatoren für versagende Laufwerke sind i.d.R. Pending Sectors und Uncorrectable Sectors - jedenfalls wenn die Festplatte davon in kurzer Zeit sehr viele produziert. Wenn du das SMART Reporting richtig aufgesetzt hast, wirst da auch unverzüglich von FreeNAS informiert :)
 

jensr

Dabbler
Joined
Oct 15, 2013
Messages
21
Hi Warri,

ok danke dir (wieder einmal) ;)
sry für die vielen fragen aber ich hab nur wenig erfahrung in dem bereich bisher und eigne mir das ehr nebenher an. bei dem fehler den di eplatte anzeigt habe ich nicht wirklich brauchbares bzw. nur wiedersprüchliches gefunden gehabt. daher dachte ich frag ich hier nochmal nach da die platte ja wie du selber schon geschrieben hast 2 jahre alt ist.

liebe grüße
jens
 
Status
Not open for further replies.
Top