[Liste-clx] FreeBSD / FreeNAS / IO

Olivier Duquesne (DaffyDuke) daffyduke at lautre.net
Mer 6 Juin 22:22:46 CEST 2018


Bonjour,

Merci pour vos réponses.
zpool est content; pas de scrub non plus ... enfin .... le dernier auriat
pris 239h. Je peux voir s'il y en a un actif ?

zpool status freenas
  pool: freenas
 state: ONLINE
  scan: scrub repaired 320K in 239h17m with 0 errors on Tue Sep 26 08:50:07
2017
config:

        NAME                                            STATE     READ
WRITE CKSUM
        freenas                                         ONLINE       0
 0     0
          raidz1-0                                      ONLINE       0
 0     0
            gptid/6d58e81d-8d43-11e4-8d7b-28924a2b0273  ONLINE       0
 0     0
            gptid/2b18181c-9150-11e5-a434-28924a2b0273  ONLINE       0
 0     0
            gptid/6e802e92-8d43-11e4-8d7b-28924a2b0273  ONLINE       0
 0     0

errors: No known data errors

zpool history me parle surtout de snapshot .....

ça vaut le coup que j'en lance un où ça risque d'être pire ?
J'avoue ne pas être hyper à l'aise çà. "je fais des trucs" mais je n'ai de
background de prod que sur mon NAS perso quoi ....

J'aime bien vos pistes matérielles RJ45/soudure/nappe SATA .... mais ....
pourquoi "des fois ça marche" normalement alors ?


[...]




Le ven. 1 juin 2018 à 12:16, Yvan Vanhullebus <vanhu_clx at zeninc.net> a
écrit :

> On Fri, Jun 01, 2018 at 12:43:57AM +0200, Olivier Duquesne (DaffyDuke)
> wrote:
> > Hello,
>
> Salut.
>
>
> > Mon NAS est hyper lent depuis quelques jours.
> > Des transferts de quelques kb/s confirmé par un iperf.
>
> A propos du iperf, a priori, il n'a aucun lien direct avec un éventuel
> problème disque.....
> T'as noté le "direct" dans ma phrase ? :)
>
> Est-ce que ton système est en forte charge CPU et/ou IO/s (par exemple
> pour une grosse opération de maintenance ZFS comme l'a suggéré Alain) ?
>
>
> > Je n'ai pas encore corrélé mon problème de débit avec cette erreur en
> terme
> > de timing :
> > Jun  1 00:18:42 freenas ahcich3: Timeout on slot 16 port 0
> > Jun  1 00:18:42 freenas ahcich3: is 00000000 cs 00030000 ss 00000000 rs
> > 00030000 tfd d0 serr 00000000 cmd 0000f017
> > Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): READ_DMA48. ACB: 25 00 a8
> a1
> > bf 40 64 00 00 00 00 01
> > Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): CAM status: Command timeout
> > Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): Retrying command
> >
> > Est-ce que les lenteurs ont commencé avec çà .... ?
> > Ca veut dire qu'un disque est en train de mourir non ?
>
> Tous les disques sont toujours en train de mourir, c'est juste une
> question d'état actuel et de vitesse à laquelle ils sont en train de
> mourir :)
>
> En vrai, commence par vérifier tes cables SATA, tes cables d'alims,
> teste éventuellement de déplacer le disque sur un autre connecteur,
> etc...
> Comme Alain, j'ai déjà eu des trucs similaires qui ont été magiquement
> réparés avec un cable SATA tout neuf.
>
>
> [coté réseau]
> > Or ça, c'est un rsync --progress de backup en cours ....
> >       1,955,391   0%   39.91kB/s   32:39:08
> >
> > 32 heures pour un fichier de même pas 2 Go. Bon je suis pas pressé mais
> ....
>
> Mais c'est pas méga optim :)
>
> Je n'y crois pas trop, mais à tout hasard: tu as validé le reste de
> ton réseau ?
> Pour t'assurer que le problème ne vient pas de l'autre coté.....
>
> > Mon tests smart dit çà :
> [.....]
>
> Mon expérience de smartctl, c'est que c'est un outil magique pour se
> faire des frayeurs à propos de l'état de ses disques.....
>
> Bon, en vrai, y'a vraiment des cas où on a raison de s'inquiéter, mais
> ils ne sont pas si fréquents que ca.
>
> Vérifie les pistes d'Alain autour de ZFS, déjà.
>
>
>
> > Le temps d'un iostat "pour voir" => reboot : panic ?
>
> "ah".....  ca pourrait être un indice sur ce qui cloche sur la
> machine: un truc qui génère tellement d'IOs que le système n'en peut
> plus.....
> Ca expliquerait du coup bien un problème de disques/cables/etc... qui
> aurait un impact sur le réseau.
>
> Par contre, ca me fait aussi penser à un trèèèèès vieux cas à la con
> que j'avais eu dans une vie antérieure (quand je faisais de la
> technique au boulot :D ): une des interfaces réseau de mon firewall
> avait les soudures sèches de la prise RJ45 qui avaient laché, et ca
> générait un réseau très pourri d'une part, mais aussi des
> interruptions dans tous les sens coté OS, il me semble, d'autre
> part....
>
> Un collègue avait refait proprement les 8 soudures, et tout était
> redevenu normal.
> Je n'y crois pas vraiment, mais sait-on jamais !
>
>
>
> A +
>
> VANHU.
> _______________________________________________
> Liste-clx mailing list
> Liste-clx at clx.asso.fr
> http://listes.lautre.net/cgi-bin/mailman/listinfo/liste-clx
>
-- 

Oliver Duquesne aka DaffyDuke
http://www.coincoin.fr.eu.org

Excusez les éventuelles erreurs, ce message
a été envoyé depuis un mobile.
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: </pipermail/liste-clx/attachments/20180606/a48d3bae/attachment.html>


Plus d'informations sur la liste de diffusion Liste-clx