[Liste-clx] FreeBSD / FreeNAS / IO

Yvan Vanhullebus vanhu_clx at zeninc.net
Ven 1 Juin 12:14:32 CEST 2018


On Fri, Jun 01, 2018 at 12:43:57AM +0200, Olivier Duquesne (DaffyDuke) wrote:
> Hello,

Salut.


> Mon NAS est hyper lent depuis quelques jours.
> Des transferts de quelques kb/s confirmé par un iperf.

A propos du iperf, a priori, il n'a aucun lien direct avec un éventuel
problème disque.....
T'as noté le "direct" dans ma phrase ? :)

Est-ce que ton système est en forte charge CPU et/ou IO/s (par exemple
pour une grosse opération de maintenance ZFS comme l'a suggéré Alain) ?


> Je n'ai pas encore corrélé mon problème de débit avec cette erreur en terme
> de timing :
> Jun  1 00:18:42 freenas ahcich3: Timeout on slot 16 port 0
> Jun  1 00:18:42 freenas ahcich3: is 00000000 cs 00030000 ss 00000000 rs
> 00030000 tfd d0 serr 00000000 cmd 0000f017
> Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): READ_DMA48. ACB: 25 00 a8 a1
> bf 40 64 00 00 00 00 01
> Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): CAM status: Command timeout
> Jun  1 00:18:42 freenas (ada3:ahcich3:0:0:0): Retrying command
> 
> Est-ce que les lenteurs ont commencé avec çà .... ?
> Ca veut dire qu'un disque est en train de mourir non ?

Tous les disques sont toujours en train de mourir, c'est juste une
question d'état actuel et de vitesse à laquelle ils sont en train de
mourir :)

En vrai, commence par vérifier tes cables SATA, tes cables d'alims,
teste éventuellement de déplacer le disque sur un autre connecteur,
etc...
Comme Alain, j'ai déjà eu des trucs similaires qui ont été magiquement
réparés avec un cable SATA tout neuf.


[coté réseau]
> Or ça, c'est un rsync --progress de backup en cours ....
>       1,955,391   0%   39.91kB/s   32:39:08
> 
> 32 heures pour un fichier de même pas 2 Go. Bon je suis pas pressé mais ....

Mais c'est pas méga optim :)

Je n'y crois pas trop, mais à tout hasard: tu as validé le reste de
ton réseau ?
Pour t'assurer que le problème ne vient pas de l'autre coté.....

> Mon tests smart dit çà :
[.....]

Mon expérience de smartctl, c'est que c'est un outil magique pour se
faire des frayeurs à propos de l'état de ses disques.....

Bon, en vrai, y'a vraiment des cas où on a raison de s'inquiéter, mais
ils ne sont pas si fréquents que ca.

Vérifie les pistes d'Alain autour de ZFS, déjà.



> Le temps d'un iostat "pour voir" => reboot : panic ?

"ah".....  ca pourrait être un indice sur ce qui cloche sur la
machine: un truc qui génère tellement d'IOs que le système n'en peut
plus.....
Ca expliquerait du coup bien un problème de disques/cables/etc... qui
aurait un impact sur le réseau.

Par contre, ca me fait aussi penser à un trèèèèès vieux cas à la con
que j'avais eu dans une vie antérieure (quand je faisais de la
technique au boulot :D ): une des interfaces réseau de mon firewall
avait les soudures sèches de la prise RJ45 qui avaient laché, et ca
générait un réseau très pourri d'une part, mais aussi des
interruptions dans tous les sens coté OS, il me semble, d'autre
part....

Un collègue avait refait proprement les 8 soudures, et tout était
redevenu normal.
Je n'y crois pas vraiment, mais sait-on jamais !



A +

VANHU.


Plus d'informations sur la liste de diffusion Liste-clx