Problème emplacement barrette ram

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Intéressant ces logs...
De ma compréhension (limitée), je dirais ceci: les "single bit error" devraient être corrigés par la mémoire ECC par contre les "multi bit error" devraient planter le système (la mémoire ECC ne corrigeant qu'un bit mais peut détecter plusieurs erreurs).

Après, est-ce un problème lié aux barrettes ou à la carte mère...
Pour cela faudrait essayer avec les autres barrettes: est-ce que toutes les barrettes produisent ces erreurs?
J'ai cru comprendre que ces erreurs arrivaient lorsque les 4 slots DIMM sont occupés, est-ce que tu arrives à les reproduire en n'occupant que DIMMB1 et DIMMB2?
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
C'est ça le truc, c'est que la plupart du temps, je n'arrive pas à aller jusqu'au lancement de l'OS
En revanche, il y a une chose intéressante, et je vais refaire des tests en ce sens. Sur DIMMA1 et DIMMA2, s'il n'y a pas d'erreur sur les 12 combinaisons de ram/slots, le problème se préciserais sur DIMMB1 et DIMMB2 ?

Hier soir, j'ai inséré les 4 barrettes, j'ai lancé windows 10 (1er démarrage). Ce matin nickel, il réagit normalement. je vais le laissé tourner toute la journée.
J'aimerais pouvoir lancer des tests ou stress des rams. Connais-tu un outils que je pourrais lancer à partir de l'OS pour provoquer des erreurs ?
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Non, je ne connais pas d'outils pour générer des erreurs.
Pour tester la mémoire ECC et générer des erreurs je crois pas qu'il y a ait d'outils, parce que ça voudrait dire qu'il faut pouvoir manipuler les données de checksum de la RAM et ça c'est intégré au module, on n'y a pas accès depuis "l'extérieur" (je veux dire par le BIOS ou l'OS).
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Non non, désolé, je ne parlais pas d'un outil qui génère des erreurs ECC, mais d'un outils qui stress mes 32 go de ram comme le fait memtest86, mais directement sur l'OS. Etant donné que j'arrive à avoir un OS qui semble fonctionner au premier démarrage, je voudrais voir si ça dure dans le temps, met pour ça il faut que je stimule la RAM.
Je n'ai rien trouvé, hormis des outils de benchmark
Si tu as quelque chose sur windows ou linux, je suis preneur
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Non désolé là non plus, je n'ai jusqu'à présent qu'utilisé memtest86.
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Pour info, j'ai trouvé ce logiciel qui teste la mémoire inutilisée sur le système, exactement ce qu'il me fallait : https://www.hcidesign.com/memtest/
Après une après-midi de stress, toujours aucune erreur détectée sur les quasi 32go de ram testée, et l'OS est toujours réactif.
Effectivement s'il y a des erreurs "Single bit", elles ne pourront pas être repérées par le logiciel car l'erreur sera "réparé". Mais vu que j'avais des erreurs "multi bits", elles devraient, elles, être détectées.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
En gros c'est une version de memtest86 sous windows si je comprends bien. :smile:
Ca peut être pratique...

Par contre, ça me chiffonne... mais peut-être qu'il y a quelque chose que j'ai pas bien compris:
  • memtest fonctionne sous windows avec les 32Go et n'indique pas de soucis
    • le système semble d'ailleurs bien fonctionner et est réactif
  • ce qui contredit un peu les tests effectués avec memtest86 puisqu'apparemment
    • tu n'arrives parfois même pas à booter...
    • ca bipe des fois
    • et quand ça boote, au redémarrage, ça ne repart plus
On a vraiment là des comportements très différents et pas forcément cohérents, donc pour tirer une quelconque conclusion c'est pas évident!
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Je te rassure, je suis complétement perdu.
En fait, ça à l'air de déconner dès lors qu'il y a au moins 3 barrettes installées.
Ensuite quelque soit le nombre (>2) de barrette et leur emplacement, j'arrive à démarrer un OS (windows, linux mint, memtest86), si je redémarre le système, ça déconne et ça se manifeste sous 3 formes différentes : 4 bips d'erreurs, redémarrage en boucle ou OS lancé mais en grosse latence.
Il suffit que j'enlève une barrette ou que j'en intervertisse une, et je peux redémarrer correctement une fois.
Une seule exception, si j'enlève la barrette et que je la remette à la même place tout de suite sans redémarrage entre les deux manip.
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Là en l'occurrence, je me suis arrangé pour démarrer windows 10 avec les 4 barrettes installées (j'ai manipulé une barrette pour que ce soit un premier démarrage)
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
J'aime pas trop ça...
Qu'il te faille tester différentes combinaisons de barrettes, passe encore, surtout si elles sont de type différent mais là c'est pas ton cas.
Tu as 4 barrettes supposées identiques, sur le papier ça devrait fonctionner, mais tu n'arrives pas à avoir un système stable donc y'a un truc qui cloche quelque part...

Je resterai sur mes deux conseils:
  • Tester avec un autre système pour identifier qui du trio CPU, carte mère, RAM pose problème (je comprends que c'est pas pratique).
  • Poser la question du côté anglophone du forum, il y a plus de monde avec beaucoup d'expérience.
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Bonjour,
Poser la question du côté anglophone du forum, il y a plus de monde avec beaucoup d'expérience.
Oui j'avais posté quand tu me l'avais déjà conseillé un peu plus haut. Je viens d'y remettre des nouvelles données. Je n'ai pas eu beaucoup de retour pour le moment.

Tester avec un autre système pour identifier qui du trio CPU, carte mère, RAM pose problème (je comprends que c'est pas pratique).
C'est effectivement la meilleure chose que je puisse faire pour être certain de mes composants. Mais je ne connais personne autour de moi qui puisse me dépanner, en plus c'est du matos un peu "spécifique". Si tu as une solution pour tester, je suis preneur.

Maintenant, si je me projette, quelles sont les solutions ?
Si c'est les barettes => je peux en racheter, c'est pas ce qui coute le plus cher
Si c'est le CPU => idem
Si c'est la carte mère (comme je le pense) => y a-t-il quelque chose à faire, je veux dire logiciellement ou matériellement avant de tout racheter ?
Car si je dois racheter une carte mère, autant racheter un ensemble carte mère/cpu/ram.

Merci à toi en tout cas.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Je viens d'y remettre des nouvelles données.
Ah ben comme quoi, je l'avais pas vu passer et c'est que maintenant que je l'ai vu! :tongue:

Je n'ai pas eu beaucoup de retour pour le moment.
J'ai remarqué que cela arrive parfois sur certain post...

Maintenant, si je me projette, quelles sont les solutions ?
Avant de songer au remplacement et racheter du matos, voir si celui que tu as est encore sous garantie. On peut avoir des surprises notamment avec la RAM qui peut avoir une garantie à vie. Après l'autre question c'est comment faire jouer la garantie surtout dans ton cas, memtest86 ne génère pas d'erreur. Mais ça peut valoir le coup ensuite de contacter le support client, leur expliquer et peut-être qu'ils pourront t'aiguiller.

autant racheter un ensemble carte mère/cpu/ram
Le problème réside évidemment dans l'identification du composant qui pose problème car comme tu le dis, si c'est la carte mère alors pourquoi ne pas envisager un changement total (carte mère/CPU/RAM)...
Donc oui, tu as listé les options possibles maintenant, il n'y a pas encore vraiment de conseil à donner quant à quelle solution choisir puisque tu ne connais pas encore la cause.

Si tu as une solution pour tester, je suis preneur.
D'après ton profil tu es sur Paris ou la région, statistiquement, les possibilités ne doivent pas manquer... mais faut les trouver. Bon une annonce dans un journal c'est plus d'époque... :smile: mais peut-être sur un forum ou un makerspace ou dans le genre?
Sinon trouver un magasin qui fait du dépannage (spécifique serveur) et leur demander si y'a moyen de tester les composants. L'inconvénient c'est qu'ils ne le feront probablement pas gratos...
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
J'ai deux autres possibilités :
_continuer avec deux barrettes 2x8Go de ram. Je n'ai jamais eu aucun problème.
ou un peu plus risqué, que je ne ferais sans doute pas.
_partir sur les 4 barrettes, lancer en "premier démarrage" puisque ça à l'air de fonctionner sans problème.

Je vais regarder au niveau des garanties.
J'avoue que ça m'embête beaucoup cette histoire, car je vais toujours me dire qu'il pourrait y avoir de la corruption de données à cause d'une "instabilité" qui vient de je ne sais où.
Je vais essayé de contacter supermicro, mais j'ai peur qu'ils me renvoie vers le fabricant de ram...
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Bonjour,
Je viens donner quelques nouvelles.
J'ai emmener mon serveur dans une boutique informatique. La personne a pu tester mes barrettes sur un autre serveur et les barrettes de l'autre serveur sur mon serveur.
Conclusion : le problème est survenu avec les barrettes de l'autre serveur installées sur mon serveur. Et mes 4 barrettes fonctionnent correctement sur l'autre serveur.
Je n'ai pas bien compris ce que m'a expliqué la personne, elle m'a dit que la puce chipset déconnait et que c'était lié au dual channel. D'après lui, le dual channel se mets en place toujours au second démarrage. Donc c'est pour cela qu'à chaque premier démarrage ça fonctionne, mais que les erreurs apparaissent dès le démarrage suivant. Il m'a également dit que je pouvais continuer à fonctionner sans problème avec 2x8Go de ram sur le canal A.
 

Etorix

Wizard
Joined
Dec 30, 2020
Messages
2,134
L'explication semble un peu bizarre car le contrôleur mémoire est dans le processeur, pas dans le chipset. Mais le test suggère que la RAM est bonne et la carte mère, douteuse. Donc plutôt continuer à fonctionner ainsi… en réfléchissant au prochain système.
 

Pitfrr

Wizard
Joined
Feb 10, 2014
Messages
1,531
Intéressant d'avoir fait le test.
L'histoire du dual channel et du deuxième démarrage, ça me surprend un peu je dirai mais bon ok... je connais pas assez.
Mais comme le dit @Etorix la mémoire semble fonctionner et c'est plutôt la carte mère qui semble poser problème, au moins c'est identifié.
D'un point de vue pratique c'est un peu plus embêtant que ce soit la carte mère plutôt que la RAM bien entendu mais c'est comme ça... :-O
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
L'explication semble un peu bizarre car le contrôleur mémoire est dans le processeur, pas dans le chipset.
J'ai justement fais quelques recherches après avoir posté mon message ici. Je me suis aperçu qu'effectivement le contrôleur mémoire n'est pas intégré au chipset mais dans le processeur.
Pensez-vous que le cpu pourrait être en cause ?
Je n'ai pas eu la présence d'esprit de lui demander de tester avec un autre processeur.
 

Etorix

Wizard
Joined
Dec 30, 2020
Messages
2,134
Si vous avez l'occasion d'emprunter un processeur compatible, ou de l'acheter pour pas cher, pourquoi pas…
Mais comme le système est assez ancien (et a priori sans valeur sentimentale…) il me semble préférable de limiter les dépenses pour le réparer et préparer son remplaçant.
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Oui, il faut que j'en ai le coeur net. ça m'arrangerais que ça soit le CPU.
 

Rosin0416

Patron
Joined
Apr 11, 2016
Messages
214
Bonjour,
Bon je teste actuellement un pentium G3258 que la personne de la boutique info m'a prêté. Et je n'ai aucun soucis avec les barrettes de ram, même après plusieurs redémarrages.
Je pense que c'est le contrôleur mémoire de mon i3-4130T (que j'avais aussi acheté d'occasion à l'époque) qui a un problème.
C'est plutôt une bonne nouvelle.

@Etorix
Mais comme le système est assez ancien (et a priori sans valeur sentimentale…) il me semble préférable de limiter les dépenses pour le réparer et préparer son remplaçant.
Oui et non, quand j'ai monté ce nas en 2015, je voulais qu'il me dure le plus longtemps possible, même si le matos était déjà dépassé à cette époque. En plus, c'est en rachetant 2 barrettes de ram pour compléter la ram au max que j'ai détecté ce problème. Pour un nas basique sans jails pour 2 ou 3 personnes, je pense que c'est suffisant.
Remonter une machine complète convenable, sans les disques durs il y en a pour pas loin de 1000 ou 1500€. ça fait quand même un budget.
 
Top