Panne de serveur terminée, j’espère…

Pendant une semaine (du 2 au 8 décembre), vous avez eu droit au message suivant :

Suite à une panne de disque, le domaine yeti.selfip.net fonctionne en mode dégradé. La remise en route est progressive et sur un matériel de remplacement temporaire.

Je vais tâcher de rétablir le site normal au plus vite. Veuillez excuser le délai.

Voici quelques explications.

This article has been translated to English.

Tout a commencé par un changement de disque sur le serveur… Mon serveur est un SheevaPlug eSata, auquel était branché un boîtier externe Cooler Master X-Craft 350 avec un disque Samsung HD103UJ « Spinpoint F1 Sata 1To ».

Après trois ans d’utilisation de l’ancien disque Samsung, je me suis enfin décidé à activer smartd sur le serveur. J’ai alors constaté que ce disque avait une température stable de 65°C (le refroidissement est passif, via le boîtier en aluminium) ; c’est une température élevée, d’autant plus que le disque avait probablement fonctionné à cette même température pendant trois ans, durée au bout de laquelle le taux de panne a tendance à augmenter.

Préférant prévenir que guérir, j’ai donc commandé le 15 octobre un nouveau disque, parfaitement adapté à ma situation : le Western Digital WD30EFRX « RED Sata 3To ». Grâce à LVM, la bascule des données d’un disque à l’autre, en les branchant tous les deux en Sata dans un PC de bureau, a été triviale. Ce fut donc vite fait, et le serveur a très vite pu redémarrer avec son nouveau disque. Encore grâce à LVM, le changement de disque a été complètement transparent et le serveur a repris du service comme si de rien n’était.

Le choix du disque s’est avéré pertinent : ce nouveau disque est plus rapide, plus silencieux, plus économe, et sa température de fonctionnement était de 37°C (moins maintenant, voir plus loin).

Un mois après l’achat, j’ai vu quelques lignes étranges dans mes logs :

Nov 19 20:55:39 server2 kernel: [2427574.318700] ata2: exception Emask 0x10 SAct 0x0 SErr 0x100000 action 0x6 frozen
Nov 19 20:55:39 server2 kernel: [2427574.326317] ata2: edma_err_cause=00000020 pp_flags=00000000, SError=00100000
Nov 19 20:55:39 server2 kernel: [2427574.333594] ata2: SError: { Dispar }
Nov 19 20:55:39 server2 kernel: [2427574.337370] ata2: hard resetting link
Nov 19 20:55:39 server2 kernel: [2427574.843240] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Nov 19 20:55:39 server2 kernel: [2427574.883438] ata2.00: configured for UDMA/133
Nov 19 20:55:39 server2 kernel: [2427574.887911] ata2: EH complete

Je ne pourrais pas affirmer que ça ne m’étais jamais arrivé car je ne surveillais pas autant mes logs auparavant. Ces lignes m’ont tout de même inquiétées puisque je venais de changer le disque. J’ai donc ouvert un « case » auprès du service client de Western Digital. Une semaine plus tard, leur réponse me demandait de vérifier le disque avec leur outil Data Lifeguard sous Windows (alors que j’avais clairement indiqué ma configuration sous Linux).

J’ai donc, temporairement, installé Windows sur le PC de bureau, puis leur outil. Le serveur étant arrêté, j’ai pris le boîtier du disque dur, l’ai basculé en mode USB et l’ai branché sur le PC sous Windows. L’outil a tout de suite vu le disque mais en affichant des données absurdes, comme la capacité ramenée à 746Mio !
Dans ces conditions, je n’ai bien sûr lancé aucun diagnostic ; je me suis empressé de tout éteindre (proprement tout de même). Mais le mal était fait car les informations erronées affichées sous Windows étaient devenues la nouvelle réalité : après branchement direct du disque en Sata dans le PC de bureau et redémarrage sous Linux, l’outil gdisk (utilitaire pour les disques avec table de partition GPT) m’alertait au sujet de la partition LVM de 3To, trop grosse pour ce « disque de 746Mio »…

Bien des lectures plus tard, c’est hardforum.com qui m’a mis sur la piste de la correction du problème : commande experte e de l’outil gdisk. L’article dédié à cet outil n’est pas inintéressant non plus.
Mais là — surprise ! — alors que le disque était « réparé » et semblait fonctionner parfaitement dans le PC de bureau, impossible de le faire reconnaitre par le serveur !

Au fil de la semaine, j’ai donc progressivement rétabli les services du domaine « yeti.selfip.net » sur le PC de bureau, sans toutefois pouvoir restaurer la base de données, ce qui a notamment empêché le rétablissement du présent blog.

En discutant ça et là, je me suis arrêté à la conclusion que — en espérant que le serveur lui-même était indemne — le problème venait forcément soit du boîtier externe eSata, soit du câble eSata. J’ai remplacé les deux, par l’achat d’un boîtier externe Icy Box IB-351StU3S-B. Soit dit en passant, très bon choix là encore puisque la température du disque dans ce boîtier est descendue de 37°C à 32°C.

Dimanche 8 décembre, j’ai pu installer le disque Western Digital dans son nouveau boîtier et le serveur a redémarré sans soucis.

Alors, problème résolu ? Pas sûr…

Je continue d’avoir des blocs d’erreur :

server2:~# { zcat $(ls -tr /var/log/syslog*.gz); cat /var/log/syslog{.?,}; } | grep -iE 'kernel|smart'
Nov 30 11:06:05 server2 smartd[2520]: Device: /dev/sda [SAT], previous self-test completed without error
Nov 30 11:36:05 server2 smartd[2520]: Device: /dev/sda [SAT], offline data collection was suspended by an interrupting command from host (auto:on)
Dec  1 02:06:05 server2 smartd[2520]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec  1 02:36:05 server2 smartd[2520]: Device: /dev/sda [SAT], offline data collection was aborted by an interrupting command from host (auto:on)
Dec  1 02:36:05 server2 smartd[2520]: Device: /dev/sda [SAT], previous self-test completed without error
Dec  2 02:06:05 server2 smartd[2520]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec  2 02:36:05 server2 smartd[2520]: Device: /dev/sda [SAT], previous self-test completed without error
Dec  2 20:11:40 server2 smartd[2520]: Device: /dev/sda [SAT], state written to /var/lib/smartmontools/smartd.WDC_WD30EFRX_68EUZN0-WD_WMC4N0515205.ata.state
Dec  2 20:11:40 server2 smartd[2520]: smartd is exiting (exit status 0)
… SERVEUR ARRÊTÉ
Dec  8 11:44:06 server2 kernel: [   22.603521] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec  8 11:44:06 server2 kernel: [   22.643549] ata2.00: ATA-9: WDC WD30EFRX-68EUZN0, 80.00A80, max UDMA/133
Dec  8 11:44:06 server2 kernel: [   22.650282] ata2.00: 5860533168 sectors, multi 0: LBA48
Dec  8 11:44:06 server2 kernel: [   22.693552] ata2.00: configured for UDMA/133
Dec  8 11:44:06 server2 kernel: [   22.698150] scsi 1:0:0:0: Direct-Access     ATA      WDC WD30EFRX-68E 80.0 PQ: 0 ANSI: 5
Dec  8 11:44:06 server2 kernel: [   22.727805] sd 1:0:0:0: [sda] 5860533168 512-byte logical blocks: (3.00 TB/2.72 TiB)
Dec  8 11:44:06 server2 kernel: [   22.736645] sd 1:0:0:0: [sda] Write Protect is off
Dec  8 11:44:06 server2 kernel: [   22.741458] sd 1:0:0:0: [sda] Mode Sense: 00 3a 00 00
Dec  8 11:44:06 server2 kernel: [   22.741558] sd 1:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Dec  8 11:44:06 server2 kernel: [   29.381431]  sda: sda1
Dec  8 11:44:06 server2 kernel: [   29.385231] sd 1:0:0:0: [sda] Attached SCSI disk
Dec  8 11:44:06 server2 kernel: [   29.399252] sd 1:0:0:0: Attached scsi generic sg0 type 0
…
Dec  8 11:44:25 server2 smartd[2548]: Configuration file /etc/smartd.conf parsed.
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda, type changed from 'scsi' to 'sat'
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], opened
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], WDC WD30EFRX-68EUZN0, S/N:WD-WMC4N0515205, WWN:5-0014ee-0ae5404f3, FW:80.00A80, 3.00 TB
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], not found in smartd database.
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], enabled SMART Attribute Autosave.
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], Read SMART Thresholds failed, ignoring -f Directive
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], enabled SMART Automatic Offline Testing.
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list.
Dec  8 11:44:25 server2 smartd[2548]: Device: /dev/sda [SAT], state read from /var/lib/smartmontools/smartd.WDC_WD30EFRX_68EUZN0-WD_WMC4N0515205.ata.state
Dec  8 11:44:25 server2 smartd[2548]: Monitoring 1 ATA and 0 SCSI devices
… SERVEUR REDÉMARRÉ
Dec  8 12:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], old test of type L not run at Sat Dec  7 03:00:00 2013 CET, starting now.
Dec  8 12:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Long Self-Test.
Dec  8 12:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 120 to 117
Dec  8 12:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 90% remaining
Dec  8 13:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 117 to 116
Dec  8 18:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 10% remaining
Dec  8 20:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 118
Dec  8 20:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec  9 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec  9 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec  9 20:04:03 server2 kernel: [116440.764192] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec  9 20:04:24 server2 kernel: [116461.572774] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec  9 20:04:24 server2 kernel: [116461.579952] ata2.00: failed command: SMART
Dec  9 20:04:24 server2 kernel: [116461.584190] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec  9 20:04:24 server2 kernel: [116461.584197]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec  9 20:04:24 server2 kernel: [116461.598968] ata2.00: status: { DRDY }
Dec  9 20:04:24 server2 kernel: [116461.602752] ata2: hard resetting link
Dec  9 20:04:25 server2 kernel: [116462.112741] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec  9 20:04:25 server2 kernel: [116462.192764] ata2.00: configured for UDMA/133
Dec  9 20:04:25 server2 kernel: [116462.197182] ata2: EH complete
Dec  9 20:04:25 server2 kernel: [116462.246113] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec  9 20:04:25 server2 kernel: [116462.254808] ata2.00: failed command: FLUSH CACHE EXT
Dec  9 20:04:25 server2 kernel: [116462.260194] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Dec  9 20:04:25 server2 kernel: [116462.260200]          res 58/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x2 (HSM violation)
Dec  9 20:04:25 server2 kernel: [116462.274836] ata2.00: status: { DRDY DRQ }
Dec  9 20:04:25 server2 kernel: [116462.279199] ata2: hard resetting link
Dec  9 20:04:25 server2 kernel: [116462.792727] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec  9 20:04:25 server2 kernel: [116462.872744] ata2.00: configured for UDMA/133
Dec  9 20:04:25 server2 kernel: [116462.877129] ata2.00: retrying FLUSH 0xea Emask 0x2
Dec  9 20:04:25 server2 kernel: [116462.892767] ata2: EH complete
Dec 10 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec 10 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 10 15:07:26 server2 kernel: [185041.101938] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec 10 15:07:46 server2 kernel: [185061.410546] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 10 15:07:46 server2 kernel: [185061.417724] ata2.00: failed command: SMART
Dec 10 15:07:46 server2 kernel: [185061.421962] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 10 15:07:46 server2 kernel: [185061.421968]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 10 15:07:46 server2 kernel: [185061.436740] ata2.00: status: { DRDY }
Dec 10 15:07:46 server2 kernel: [185061.440526] ata2: hard resetting link
Dec 10 15:07:47 server2 kernel: [185061.950516] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec 10 15:07:47 server2 kernel: [185062.030535] ata2.00: configured for UDMA/133
Dec 10 15:07:47 server2 kernel: [185062.034955] ata2: EH complete
Dec 10 15:08:07 server2 kernel: [185082.409996] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 10 15:08:07 server2 kernel: [185082.417176] ata2.00: failed command: SMART
Dec 10 15:08:07 server2 kernel: [185082.421413] ata2.00: cmd b0/d5:01:e0:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 10 15:08:07 server2 kernel: [185082.421420]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 10 15:08:07 server2 kernel: [185082.436197] ata2.00: status: { DRDY }
Dec 10 15:08:07 server2 kernel: [185082.439988] ata2: hard resetting link
Dec 10 15:08:08 server2 kernel: [185082.949847] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec 10 15:08:08 server2 kernel: [185083.029871] ata2.00: configured for UDMA/133
Dec 10 15:08:08 server2 kernel: [185083.034291] ata2: EH complete
Dec 10 15:08:13 server2 kernel: [185088.560383] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec 10 15:08:34 server2 kernel: [185109.369032] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 10 15:08:34 server2 kernel: [185109.376207] ata2.00: failed command: SMART
Dec 10 15:08:34 server2 kernel: [185109.380448] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 10 15:08:34 server2 kernel: [185109.380455]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 10 15:08:34 server2 kernel: [185109.395236] ata2.00: status: { DRDY }
Dec 10 15:08:34 server2 kernel: [185109.399025] ata2: hard resetting link
Dec 10 15:08:35 server2 kernel: [185109.908992] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl F300)
Dec 10 15:08:35 server2 kernel: [185109.989016] ata2.00: configured for UDMA/133
Dec 10 15:08:35 server2 kernel: [185109.993437] ata2: EH complete
Dec 10 15:16:23 server2 kernel: [185578.574842] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec 10 15:16:44 server2 kernel: [185599.393488] ata2: limiting SATA link speed to 1.5 Gbps
Dec 10 15:16:44 server2 kernel: [185599.398848] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 10 15:16:44 server2 kernel: [185599.406051] ata2.00: failed command: SMART
Dec 10 15:16:44 server2 kernel: [185599.410265] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 10 15:16:44 server2 kernel: [185599.410271]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 10 15:16:44 server2 kernel: [185599.425051] ata2.00: status: { DRDY }
Dec 10 15:16:44 server2 kernel: [185599.428826] ata2: hard resetting link
Dec 10 15:16:45 server2 kernel: [185599.933452] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl F310)
Dec 10 15:16:45 server2 kernel: [185600.013476] ata2.00: configured for UDMA/133
Dec 10 15:16:45 server2 kernel: [185600.017891] ata2: EH complete
Dec 10 15:16:45 server2 kernel: [185600.055693] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 10 15:16:45 server2 kernel: [185600.062863] ata2.00: failed command: FLUSH CACHE EXT
Dec 10 15:16:45 server2 kernel: [185600.067989] ata2.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Dec 10 15:16:45 server2 kernel: [185600.067995]          res 58/00:46:00:00:00/00:00:00:00:00/00 Emask 0x2 (HSM violation)
Dec 10 15:16:45 server2 kernel: [185600.082349] ata2.00: status: { DRDY DRQ }
Dec 10 15:16:45 server2 kernel: [185600.086606] ata2: hard resetting link
Dec 10 15:16:45 server2 kernel: [185600.603444] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl F310)
Dec 10 15:16:45 server2 kernel: [185600.683459] ata2.00: configured for UDMA/133
Dec 10 15:16:45 server2 kernel: [185600.687847] ata2.00: retrying FLUSH 0xea Emask 0x2
Dec 10 15:16:45 server2 kernel: [185600.703439] ata2.00: device reported invalid CHS sector 0
Dec 10 15:16:45 server2 kernel: [185600.708968] ata2: EH complete
Dec 10 16:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], offline data collection was suspended by an interrupting command from host (auto:on)
Dec 11 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec 11 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], offline data collection was aborted by an interrupting command from host (auto:on)
Dec 11 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 11 11:12:08 server2 kernel: [257320.985847] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec 11 11:12:29 server2 kernel: [257342.104433] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 11 11:12:29 server2 kernel: [257342.111612] ata2.00: failed command: SMART
Dec 11 11:12:29 server2 kernel: [257342.115849] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 11 11:12:29 server2 kernel: [257342.115856]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 11 11:12:29 server2 kernel: [257342.130630] ata2.00: status: { DRDY }
Dec 11 11:12:29 server2 kernel: [257342.134414] ata2: hard resetting link
Dec 11 11:12:30 server2 kernel: [257342.644411] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl F310)
Dec 11 11:12:30 server2 kernel: [257342.724475] ata2.00: configured for UDMA/133
Dec 11 11:12:30 server2 kernel: [257342.729004] ata2: EH complete
Dec 11 11:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 90% remaining
Dec 11 11:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 118 to 116
Dec 11 16:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 10% remaining
Dec 11 19:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 118
Dec 11 19:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 12 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec 12 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 12 09:40:20 server2 kernel: [338210.157181] ata2: sata_mv: attempting PIO w/multiple DRQ: this may fail due to h/w errata
Dec 12 09:40:40 server2 kernel: [338230.525908] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Dec 12 09:40:40 server2 kernel: [338230.533084] ata2.00: failed command: SMART
Dec 12 09:40:40 server2 kernel: [338230.537322] ata2.00: cmd b0/d5:01:e1:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec 12 09:40:40 server2 kernel: [338230.537329]          res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Dec 12 09:40:40 server2 kernel: [338230.552102] ata2.00: status: { DRDY }
Dec 12 09:40:40 server2 kernel: [338230.555887] ata2: hard resetting link
Dec 12 09:40:41 server2 kernel: [338231.065763] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl F310)
Dec 12 09:40:41 server2 kernel: [338231.145787] ata2.00: configured for UDMA/133
Dec 12 09:40:41 server2 kernel: [338231.150212] ata2: EH complete
Dec 13 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec 13 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 13 12:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 118 to 119
Dec 14 02:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Short Self-Test.
Dec 14 02:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 14 03:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], starting scheduled Long Self-Test.
Dec 14 03:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 116
Dec 14 03:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 90% remaining
Dec 14 04:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 115
Dec 14 09:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 115 to 116
Dec 14 09:14:26 server2 smartd[2553]: Device: /dev/sda [SAT], self-test in progress, 10% remaining
Dec 14 11:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 116 to 117
Dec 14 11:14:25 server2 smartd[2553]: Device: /dev/sda [SAT], previous self-test completed without error
Dec 14 11:44:25 server2 smartd[2553]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 117 to 118

D’un côté, de nombreux messages sont inquiétants (en gras ci-dessus), surtout ceux en rouge ; certains de ces messages semblent indiquer que SMART ne fonctionne pas (ce qui est possible si le nouveau boîtier externe n’a pas de support SMART ; je n’ai pas vérifié). D’un autre côté, les messages ci-dessus en vert montrent bien que SMART fonctionne au moins dans une certaine mesure, et montrent en plus que « tout va bien » (note : les valeurs de température indiquées sont des indicateurs bruts, pas des degrés Celcius)… Et pourtant, impossible de lire les indicateurs :

server2:~# smartctl --attributes /dev/sda
smartctl 5.41 2011-06-09 r3365 [armv5tel-linux-3.2.0-4-kirkwood] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Warning! SMART Attribute Data Structure error: invalid SMART checksum.
Error SMART Thresholds Read failed: scsi error aborted command
Smartctl: SMART Read Thresholds failed.

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 17018
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
255 Unknown_Attribute 0x373f 200 016 --- Pre-fail Always - 69269232549888
45 Unknown_Attribute 0x4d44 087 052 --- Old_age Offline - 55204041863235
53 Unknown_Attribute 0x0630 123 039 --- Old_age Offline - 53017881608307
65 Unknown_Attribute 0x3030 056 068 --- Old_age Offline - 53151365537879
70 Unknown_Attribute 0x5845 082 054 --- Pre-fail Offline - 53143143990573
32 Unknown_Attribute 0x2020 032 032 --- Old_age Offline - 35322350018592
32 Unknown_Attribute 0x2020 032 032 --- Old_age Offline - 550026354720
16 Unknown_Attribute 0x3f00 000 016 --- Old_age Offline - 280379760114684
255 Unknown_Attribute 0x000f 000 007 --- Pre-fail Always - 131943408599808
120 Unknown_Attribute 0x7800 000 000 --- Old_age Offline - 0
64 Unknown_Attribute 0xfe00 003 000 --- Old_age Offline - 56613598948096
105 Unknown_Attribute 0x4174 188 035 --- Old_age Offline - 239697196515175
224 Load_Friction 0x544e 174 243 --- Old_age Always - 4
255 Unknown_Attribute 0xbd00 239 000 --- Old_age Offline - 0

Erreur de somme de contrôle, attributs inconnus, valeur brutes farfelues, tout laisse penser qu’il s’agit d’un problème d’ordre de lecture des octets ; je ne sais malheureusement pas utiliser l’option -v de smartctl. De plus, ce problème n’existait pas auparavant ; peut-être est-il dû au bref passage du disque sur une architecture différente, à savoir x86_64 sur le PC de bureau…

Bref, j’en suis là. Le serveur fonctionne, mais pour combien de temps ? Je suis intéressé par tout indice, toute explication, que pourrait m’apporter quiconque en connait plus que moi sur le sujet :-) Merci d’avance !

Commentaires

1. Le vendredi 4 novembre 2016, 11:30 par Yves

Quelqu’un a eu l’amabilité de m’informer par email qu’un intéressant article a récemment été mis en ligne concernant la longévité des disques durs sur comparitech.com. Il fait d’ailleurs référence à des données plus récentes de BackBlaze. Profitez-en !

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

La discussion continue ailleurs

URL de rétrolien : http://yalis.fr/cms/index.php/trackback/29

Fil des commentaires de ce billet