Alert Meldung: Degraded

Status
Not open for further replies.

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Hey

Nach dem mein Freenas-System nicht mehr startete (Defekter USB-Stick) habe ich das Freenas auf einem neuen USB-Stick wieder installiert und eingerichtet. Nachdem ich mein ZFS-Pool wieder importiert hatte löschte ich die alten Jails und begann diese wieder neu zu installieren. Nach der Installation vom PlexMediaServer erhielt ich plötzlich eine Alert-Meldung (siehe Snapshot). Als ich die Meldung lass hatte ich Angst, dass ich Daten verlieren würde. Daraufhin habe ich direkt von sämtlichen wichtigen Daten eine Sicherheitskopie erstellt. Beim Erstellen der Sicherheitskopie verlief alles ohne Probleme. Bei den gesicherten Daten habe ich vereinzelnd Dateien geöffnet um zu schauen ob diese funktionieren - alle getesteten Dateien konnte ich öffnen.
Nun meine Frage wo kann mein Problem liegen für die entstandene Alert-Meldung?


Gruss und Dank
alertfreenasqd9yt8s6lw.jpg
[/url][/IMG]
alertfreenasqd9yt8s6lw.jpg
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Die Ursachen der Fehlermeldung sind vermutlich bei den Festplatten selbst, evtl. gepaart mit fehlender Redundanz bei Deinem Pool zu suchen.

Wenn Du den Output von 'zpool status -v NASVolume' hier postest
sowie den Output von 'smartctl -a /dev/adaX' (wobei X durch die Nummern der in NASVolume beteiligten Geräte zu ersetzen ist, z.B. ada0, ada1, ...), kann Dir bestimmt jemand Genaueres sagen. Output der Kommandos hier im Forum bitte zwecks Lesbarkeit in Code-Tags.

Auf jeden Fall schon mal gut, dass Du ein Backup von allen Daten (soweit unversehrt) hast.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Habe nun in der Shell die folgenden Befehle ausgeführt:
zpool status -v NASVolume und dessen Ergebnis:

http://img5.fotos-hochladen.net/uploads/zpoolauswertun1rdenhtml2.jpg


Als ich den folgenden Befehl ausführte: smartctl -a /dev/ada erhielt ich nur folgende Meldung egal ob als X=0,1,2,3:

http://img5.fotos-hochladen.net/uploads/meldungsmarttsnct63ug1f.jpg

Zusätzlich hier meine Übersicht zu den Festplatten vom Disk View:

http://img5.fotos-hochladen.net/uploads/freenasviewdi3ypja21ik0.jpg

Vielen Dank für eure Hilfe.
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Am Output des zpool status Kommandos ist zu sehen, dass auf 2 Platten eines raidz1 vdevs Fehler in den Datenstrukturen festgestellt wurden. Auf einer mehr als ein raidz1 vdev verkraften kann, deswegen ist in der Fehlermeldung die Du eingangs gepostet hast von data corruption die Rede.

Bei den smartctl Kommandos hätte ein Leerzeichen zwischen '-a' und '/dev/...' hingehört. Bitte nochmal versuchen.

Hast Du in letzter Zeit etwas an der Verkabelung geändert, sodass evtl. die SATA-Stecker nicht richtig sitzen? Ansonsten würde ich fast davon ausgehen, dass zwei Platten ein Hardwareproblem haben.

Hast Du regelmäßige SMART-Tests und Scrubs sowie Email-Benachrichtigungen konfiguriert? Wundert mich, dass Du nicht schon bei Problemen mit einer dieser zwei Platten davon Wind bekommen hast, hatte solche Probleme allerdings noch nicht.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Habe jetzt nochmals die SATA Verbindungen kontrolliert dabei habe ich nun bemerkt, dass einer Locker war. Als du fragtest, ob ich in letzter Zeit etwas an der Verkabelung geändert habe kam mir in den Sinn, dass ich bei der Installation des neuen USB-Stick die Stromstecker der Festplatten entfernte. Gewisse Zeit lang war der Alert nur mehr folgender: The volume NasVolum(zfs) state is Online: One or more... Kann es sein, das ein SATA-Anschluss auf dem Mainboard dahin ist? Hätte noch zwei weitere kann ich die Festplatten einfach umstöpseln?

Hier nun die Testergebnisse:
ada0:
http://img5.fotos-hochladen.net/uploads/ada09jszw367l0.jpg

ada1
http://img5.fotos-hochladen.net/uploads/ada1pyzn4tw1h7.jpg

ada2
http://img5.fotos-hochladen.net/uploads/ada2v751bixpnf.jpg

ada3
http://img5.fotos-hochladen.net/uploads/ada3jpaohs5yb0.jpg

SMART-Test und Scrubs habe ich nicht gemacht sowie eine Email benachrichtigung auch nicht. Schaue aber regelmässig auf den Server d.h. alle 2 Tage. Weshalb kann ich eigentlich noch auf alle meine Daten zugreifen?
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Bei den Ausgaben der smartctl-Befehle ist mir auf die Schnelle nichts aufgefallen. Ich empfehle aber, dass Du den Hard Drive Troubleshooting Guide von joeschmuck aufmerksam liest und den (für Dich) interessanten Hinweisen nachgehst.

https://forums.freenas.org/index.ph...leshooting-guide-basic-common-failures.41026/

Ich wäre an Deiner Stelle vorsichtig und würde (evtl. nach nochmaliger Überprüfung der Verkabelung) das komplette Array einem schreibenden und damit datenzerstörenden Burn-In Test unterziehen wie nach Anschaffung von neuer Hardware.

https://forums.freenas.org/index.php?threads/building-burn-in-and-testing-your-freenas-system.17750/
https://forums.freenas.org/index.php?threads/how-to-hard-drive-burn-in-testing.21451/

One or more... Kann es sein, das ein SATA-Anschluss auf dem Mainboard dahin ist? Hätte noch zwei weitere kann ich die Festplatten einfach umstöpseln?

Umstöpseln an andere SATA-Ports bei Beibehaltung der vorhandenen Platten müsste ohne Weiteres funktionieren, da ZFS die Platten anhand der gptids identifiziert. Beim Austausch von Platten sollte man sich ans Handbuch halten.

http://doc.freenas.org/9.3/freenas_storage.html#replacing-a-failed-drive

Falls Du (schreibende) Burn-In Tests machst, hieße das aber, hinterher Deinen Pool komplett neu aufzusetzen.

Weshalb kann ich eigentlich noch auf alle meine Daten zugreifen?

Vermutlich weil Du Glück hattest und bisher nur nicht ganz so essentielle Metadaten im Dateisystem kaputt gegangen sind.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Hey

Habe in der Zwischenzeit folgendes probiert:
- Alle Festplatten an andere SATA-Anschlüsse angeschlossen:
Folgendes stellte ich fest: Eine gewisse Zeit war der Fehler Degraded nicht vorhanden sondern nur folgender:
http://img5.fotos-hochladen.net/uploads/diskstatus4fmerg6pzj.jpg

Damit ich sichergehen kann, dass meine Festplatten i.O. sind, ist die einzige Möglichkeit den Smart long Test durchzuführen?

Gemäss Angaben in der Shell dauert ein smart long Test 400 min für eine Platte. Kann man den Test für alle Platten gleichzeitig laufen lassen?==> Shell öffnen und für jede Platte den Befehl eingeben?

Gruss und vielen Dank für die Hilfe.
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Eine gewisse Zeit war der Fehler Degraded nicht vorhanden sondern nur folgender:
http://img5.fotos-hochladen.net/uploads/diskstatus4fmerg6pzj.jpg

Wenn das ein Hinweis auf eine Fehlermeldung ist, erkenne ich sie nicht. Ich habe Deine bisherige Vorgehensweise nicht ganz verstanden. Hast Du einen komplett neuen Pool eingerichtet und die Daten aus Deiner zuvor erstellten Sicherung wieder hinkopiert oder scheint Dein ursprünglicher Pool wieder zu funktionieren? Falls Zweiteres: Ist der Output von 'zpool status -v' jetzt komplett sauber (sprich: alle Zeilen, die mit 'errors' beginnen, lauten 'errors: No known data errors')?

Damit ich sichergehen kann, dass meine Festplatten i.O. sind, ist die einzige Möglichkeit den Smart long Test durchzuführen?

Der einzige nicht, aber schon mal einer. In den oben angesprochenen Burn-In-Test Threads im Forum kann man sicher mehr finden. Und ja, man kann mehrere SMART-Tests auf verschiedene Platten verteilt parallel laufen lassen.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Im obigen Link:
http://img5.fotos-hochladen.net/uploads/diskstatus4fmerg6pzj.jpg

ist in der Spalte "Status" Healthy zu erkennen und beim alten Alert war Degraded in der Spalte"Status". Nur dauert es aber nicht lange bis wiederum Degraded auftritt.

Ich habe keinen neuen Pool aufgesetzt sondern nur, wie oben erwähnt, die Festplatten an andere noch freie Anschlüsse verbunden.

==>Somit werde ich als nächstes nochmals den kurzen smart-Test durchführen und falls nötig den langen.

==>Kann es aber auch sein, dass der Pool zerstört wurde durch einen kurzzeitigen Kontaktunterbruch von zwei Festplatten?

==> wie oben erwähnt konnte ich alle wichtigen Daten auf andere Festplatten kopieren. Habe aber noch nicht kontrolliert ob die kopierten Daten auf den anderen Festplatten lesbar sind. Ist es nötig diese zu kontrollieren oder kann man davon ausgehen, solange dass die Daten kopierbar sind ohne Fehlermeldung sind sie auch auf der anderen Festplatte lesbar?

Gruss
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
==>Kann es aber auch sein, dass der Pool zerstört wurde durch einen kurzzeitigen Kontaktunterbruch von zwei Festplatten?

Wenn der Pool keinen Schaden genommen hätte, hättest Du die DEGRADED Fehlermeldung nicht gesehen.

Du kannst versuchen, den Fehler mit einem Scrub ('zpool scrub NASVolume') zu reparieren. Ist auf jeden Fall weniger Mühe als den Pool neu aufzusetzen.Den Scrub besser nicht gleichzeitig mit SMART-Tests laufen lassen.

==> wie oben erwähnt konnte ich alle wichtigen Daten auf andere Festplatten kopieren. Habe aber noch nicht kontrolliert ob die kopierten Daten auf den anderen Festplatten lesbar sind.

Eventuell hilft dir ein Tool wie WinMerge, mit dem man komplette Verzeichnisbäume komfortabel vergleichen kann. Damit würde Dir auffallen, falls beim ersten Kopiervorgang etwas schief gelaufen ist.

http://winmerge.org/
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Vielen Dank für die Tipps. Habe nun den Smart-Long Test für alle 4 Festplatten gestartet. Wo sehe ich anschliessend die Resultate? Denn in der Shell kann ich nicht zurück scrollen (verwende Google Chrome).

Gruss
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Die Smart-Long Test der Festplatten ada1, ada2, ada3 sind noch am laufen (remainig 20%)
Bei der Festplatte ada0 habe ich folgende Fehlermeldung erhalten: "Device: /dev/ada0, Self-Test Log error count increased from 0 to 1"
==>Habe den Test mehrmals neu gestartet aber immer kam die obige Meldung nach einer gewissen Zeit.
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
Ich denke das könnte auf ein defektes Kabel/Stecker hindeuten. Fehlerhafte Übertragung.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Vielen Dank für die Rückmeldung - werde somit am Abend Kabel und den Anschluss austauschen.
Denke die Smart Long Tests sind nun abgeschlossen. Kannst du mir vielleicht sagen wo ich nun die Resultate/Auswertung sehe?
Gruss
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Habe nun bemerkt, wenn ich nun den befehl smartctl -a /dev/adaX eingebe steht nun unter Smart-Self Test ein Eintrag. Ist dies nun das Ergebnis vom smartctl -t long Test?

Sorry wenn ich so viel nachfrage, dass Testen ist für mich komplettes Neuland :D
 

MrToddsFriends

Documentation Browser
Joined
Jan 12, 2015
Messages
1,338
Habe nun bemerkt, wenn ich nun den befehl smartctl -a /dev/adaX eingebe steht nun unter Smart-Self Test ein Eintrag. Ist dies nun das Ergebnis vom smartctl -t long Test?

Kurze Antwort: Ja, smartctl -a /dev/adaX gibt unter anderem die (auf der Platte gespeicherten) Testresultate aus.

"Den ganzen Scheiß" den smartctl sonst noch kann und woraus sich die Sammeloptionen -a und -x zusammensetzen kann man in der manpage von smartctl z.B. hier nachlesen

https://www.freebsd.org/cgi/man.cgi....1-RELEASE+and+Ports&arch=default&format=html

An dieser Stelle absichtlich auf die FreeBSD 10.1 manpages verwiesen weil FreeNAS 9.3.1 die smartmontools aus FreeBSD 10.1 mitbringt aber sonst auf FreeBSD 9.3 aufsetzt.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
So habe nun alles versucht, Smart long test, scrub, sämtliche SATA-Kabel ausgetauscht und SATA-Controller gekauft.
Resultat:
Festplatte 1,2 und 3 absolvierten den long test ohne Fehler.
Festplatte 4 bricht den long test immer ab bei 90% habe 14 Versuche durchgeführt mit neuen SATA-Kabeln, anderen SATA-Anschlüssen und SATA-Controller.
Da der Degraded Status auf zwei Festplatten ist konnte habe ich durch den scrub nichts erreicht.
==> Denkt ihr die Festplatte 4 ist durch oder hilft eine Neuinstallation? Was denkt ihr?
 

xaibex

Patron
Joined
Mar 19, 2013
Messages
340
Klingt als wäre die Platte tatsächlich defekt. Neuinstallation bringt überhaupt nichts.
Am besten schnellsmöglich die betroffene festplatte tauschen und einen rebuild durchführen.
 

fiesta_xr2i

Explorer
Joined
Mar 5, 2015
Messages
65
Problem hat sich in der Zwischenzeit erledigt. Die defekte Festplatte ausgetauscht. Die 3 anderen Platten gelöscht und den Pool neu eingerichtet. Anschliessend sämtliche Dateien wieder auf den Pool kopiert. Eine Reparatur des Pools war nicht möglich, da eine Festplatte defekt war und auf einer anderen Festplatte noch ein Dateifehler war. Somit war ein Fehler zu viel für die Rekonstruktion.

==> Erkenntnis: Regelmässiges externes Backup, 2. Pool zum Spiegeln der Daten :D
 
Status
Not open for further replies.
Top