Substituí Disco corrompido mas continua degradado após Resilver

Status
Not open for further replies.
Joined
Oct 9, 2016
Messages
52
Depois que fiz o replace e concluiu o resilver o disco antigo continua sendo listado e offline (já retirei da máquina) e continua o estado DEGRADADO. O que devo fazer?
O processo de resilver levou + ou - 48h e o servidor ficou instável durante esse tempo. Reiniciou varias vezes e quando estava quase finalizado reiniciou a porcentagem. O acesso ao DADOS ficou instável e por vezes não ficava acessível.
Agora que concluiu o resilver, mesmo em modo DEGRADED estabilizou e parece estar tudo bem, mas pelo que entendi nesse modo não tenho a segurança dos dados, correto?

Captura de tela 2018-03-15 13.19.46.png
Captura de tela 2018-03-15 13.19.37.png
Captura de tela 2018-03-15 13.20.08.png
Captura de tela 2018-03-15 13.20.30.png
 

Seemog

Dabbler
Joined
Mar 15, 2018
Messages
22
Viva,

fica sempre complicado fazer troubleshooting sem ter acompanhado o processo de inicio.

Pelo que entendi, o NAS está configurado com 4x6 TB. Certo?
Quando 1 dos discos foi substítuido, ele fez o resilver, mas no final mostra a presença de 5 discos, quando apenas existem 4 ligados na máquina. É isso?

Uma questão: já experimentou fazer um 'scrub' à pool? Ou tem tarefas de scrub agendadas com regularidade?

Minha sugestão:
1º Coloque aqui o resultado do comando:
$ zpool status <your_pool_name> para ver se temos mais informação dos erros

2º Experimente fazer um scrub (nota isto é resource consuming pelo que o NAS vai ficar com performance diminuída se continuar a ser usado para outras tarefas)
$ zpool scrub <your_pool_name> vai levar algum tempo

3º Está a chegar a um nível de utilização da capacidade do NAS critico. Mandam as boas práticas que não se use mais de 80% da capacidade:
ver este artigo: https://forums.freenas.org/index.php?threads/maximum-amount-of-space-useable.28579/
 
Joined
Oct 9, 2016
Messages
52
Viva,

fica sempre complicado fazer troubleshooting sem ter acompanhado o processo de inicio.

Pelo que entendi, o NAS está configurado com 4x6 TB. Certo?
Quando 1 dos discos foi substítuido, ele fez o resilver, mas no final mostra a presença de 5 discos, quando apenas existem 4 ligados na máquina. É isso?

Uma questão: já experimentou fazer um 'scrub' à pool? Ou tem tarefas de scrub agendadas com regularidade?

Minha sugestão:
1º Coloque aqui o resultado do comando:
$ zpool status <your_pool_name> para ver se temos mais informação dos erros

2º Experimente fazer um scrub (nota isto é resource consuming pelo que o NAS vai ficar com performance diminuída se continuar a ser usado para outras tarefas)
$ zpool scrub <your_pool_name> vai levar algum tempo

3º Está a chegar a um nível de utilização da capacidade do NAS critico. Mandam as boas práticas que não se use mais de 80% da capacidade:
ver este artigo: https://forums.freenas.org/index.php?threads/maximum-amount-of-space-useable.28579/

Olá amigo! Primeiramente preciso agradecê-lo pela disposição! Pois não consegui ajuda em português e meu inglês é péssimo!

Desculpe não responder antes mas estava trabalhando fora! E durante o fim de semana o sistema reiniciou e começou o resilver novamente! Eu tinha esperança que terminasse, mas chegando segunda feira de manhã estava travado! Reiniciei e o resilver está a 18%!!! Um processo demasiadamente longo e repetitivo!

Sobre as sugestões, eu sou bem iniciante, e preciso que seja mais claro, por exemplo nem sei onde dou esse comando: $ zpool status <your_pool_name>
Não sei como lido com SCRUB também!
Comprei esse NAS a quase 3 anos já configurado e apenas utilizei! Só agora que está dando problemas e estou estudando o sistema!
Sobre a utilização de 80% já estou resolvendo, mas estou com medo de movimentar os dados enquanto está em estado DEGRADED...
 

Seemog

Dabbler
Joined
Mar 15, 2018
Messages
22
Ok Daniel,

então vamos tentar resolver isso com calma.

Os comandos são inseridos na shell, que está disponível no menu lateral da janela principal do FreeNAS, antes do 'Logout' e do 'Reboot'.
Clicando aí, abre uma janela preta.
Essa janela no canto inferior esq, tem 1 botão 'paste' e uma caixa com o tamanho (eu gosto de usar o 132x50), para se ver bem.
Depois é só escrever:

zpool status nas

Neste caso, pelo que vi das suas imagens, 'nas' é o nome da sua pool.


NOTA: mas primeiro acho que deve deixar terminar o resilver.

Os scrubs, é boa prática agendar com alguma frequência (para durante a noite, em horas em que o NAS está mais livre).
São tipo tarefas de manutenção do NAS. E ás vezes reparam alguns erros simples.

o comando será:

zpool scrub nas

também aplicado na shell.

Vá dando feedback
 
Joined
Oct 9, 2016
Messages
52
Ok Daniel,

então vamos tentar resolver isso com calma.

Os comandos são inseridos na shell, que está disponível no menu lateral da janela principal do FreeNAS, antes do 'Logout' e do 'Reboot'.
Clicando aí, abre uma janela preta.
Essa janela no canto inferior esq, tem 1 botão 'paste' e uma caixa com o tamanho (eu gosto de usar o 132x50), para se ver bem.
Depois é só escrever:

zpool status nas

Neste caso, pelo que vi das suas imagens, 'nas' é o nome da sua pool.


NOTA: mas primeiro acho que deve deixar terminar o resilver.

Os scrubs, é boa prática agendar com alguma frequência (para durante a noite, em horas em que o NAS está mais livre).
São tipo tarefas de manutenção do NAS. E ás vezes reparam alguns erros simples.

o comando será:

zpool scrub nas

também aplicado na shell.

Vá dando feedback

Poxa amigo, chego até a me emocionar com sua disposição! :D
Bom, o resilver está em 22% agora, porém é a terceira vez que reinicia, a única vez que completou foi a que mostrei aqui e com aqueles 10 erros. Ai de lá pra cá o sistema reiniciou varias vezes! Espero mais uma tentativa de conclusão do resilver ou posso dar esses comandos?
 

Seemog

Dabbler
Joined
Mar 15, 2018
Messages
22
Acho que não. Está a fazer semanalmente, ao domingo.

No entanto, o facto de já ter re-iniciado 3x o resilver, sem nunca ter concluido, isso é que não me está a agradar nada :(.

Não sei como o Freenas se vai comportar se não conseguir terminar o resilver.

Uma pergunta: porque precisou de trocar o disco? Qual era o estado do Freenas antes desse procedimento?
 
Joined
Oct 9, 2016
Messages
52
E depois dessa primeira conclusão do resilver com erros não concluiu mais, sempre reinicia o sistema e nunca chega a 100%! Já está nesse processo a uns 3 dias!
 
Joined
Oct 9, 2016
Messages
52
Na interface web só falava que uma das unidades estava com problemas, mas no monitor ligado direto ao NAS dava essas mensagens:
fd21e719-5299-4ce2-8ad9-a2f0f58a36e5.jpg
 

Seemog

Dabbler
Joined
Mar 15, 2018
Messages
22
393 unreadable sectors !!!!!!!!!!!!!!!!!
Uiiiiii - esse disco já era.

O disco que usou para trocar o ada2, era novo?

Pelo que vejo ele não consegue fazer o resilver porque o novo substituto também está com muitos erros.

Temos de fazer uma análise mais profunda a todos esses discos.
Mas o problema é que a sua configuração é Raid-Z1, ou seja temos o mínimo de redundância: só podemos perder 1 disco.
Isso faz-nos trabalhar com pouco segurança relativamente à protecção e salvaguarda dos dados.

Eu tenho 4x2TB e uso raid-Z2.

O que eu sugeria era fazer aqui uma intervenção de fundo.
Transformar isso num 4x6TB com raid-z2 no minimo, mas isso implica ter 1 terceiro local para alojar os dados temporariamente.

Apesar dos erros, está a conseguir ler os dados do NAS?
 
Joined
Oct 9, 2016
Messages
52
Sim! Esse disco já está descartado aqui!
Comprei um disco novo sim! Na embalagem!
Estou acessando os dados sim, mas como disse, acabei de tentar COPIAR um lote de arquivos e o sistema reinicia!
Agora mesmo fui copiar 3gigas de arquivos e quando estava quase concluindo reiniciou o sistema!
 
Joined
Oct 9, 2016
Messages
52
E realmente não tenho esse espaço temporário! Implicaria em comprar mais HDs, e já foi um sacrifício comprar um novo RED NAS WD de 6tb!
 

Seemog

Dabbler
Joined
Mar 15, 2018
Messages
22
E realmente não tenho esse espaço temporário! Implicaria em comprar mais HDs, e já foi um sacrifício comprar um novo RED NAS WD de 6tb!

Eu entendo...

Mas vai ter aí um problemas para o resto da vida

4x6TB é um volume muito grande para só ter 1 disco de redundância.
E não vai conseguir alterar para raid-z2 (com 2 discos de redundância), sem destruir esse volume.

Não consegue copiar pedaços dos dados, para vários discos externos ou compiutadores de familiares, ou dropbox, ou amazon S3, etc
Para depois fazer um volume Raid-z2, novinho em folha?
É que até pelo facto de já estar quase nos 90% da capacidade, isso indica que vai ter de comprar mais discos, mais tarde ou mais cedo.


Não podendo partir para a solução 1,
temos a solução 2 (mais perigosa):

- eu tentava retirar esse disco ada2, que está a dar problemas, e re-iniciava a máquina.
Depois via quais as mensagens de erro.
Se for apenas volume degradado, sem outros erros, tentava então fazer o replace do disco.
(Nota: garanta que tem o NAS ligado numa UPS, não convém nada perder a corrente elétrica durante estes procedimentos)

Outra coisa que se terá de fazer é correr o comando:

smartctl -t /dev/adaX, onde X é o número do disco
para fazer uma análise da condição de cada disco (isto é um processo demorado). No final dá um relatório do estado do disco (incluindo se em erros ou não)
e que pode ser lido com o comando:

smartctl -a /dev/adaX | more

pode haver por aí mais problemas com os discos.

Mas já sabe, isto será tudo um risco, porque se perder mais algum disco, perde os dados.

Eu tentava a solução 1, primeiro.
 
Status
Not open for further replies.
Top