Und mal wieder ist es eine Festplatte, die in Kürze das Zeitliche segnen wird:
Oct 1 15:49:43 Commander1024 kernel: ata7.00: exception Emask 0x10 SAct 0x7f SErr 0x580100 action 0x6
Oct 1 15:49:43 Commander1024 kernel: ata7.00: irq_stat 0x08000000
Oct 1 15:49:43 Commander1024 kernel: ata7: SError: { UnrecovData 10B8B Dispar Handshk }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/d8:00:bf:a5:da/02:00:11:00:00/40 tag 0 ncq 372736 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/0b:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/08:08:97:a8:da/00:00:11:00:00/40 tag 1 ncq 4096 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/28:10:9f:a8:da/00:00:11:00:00/40 tag 2 ncq 20480 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/68:18:c7:a8:da/01:00:11:00:00/40 tag 3 ncq 184320 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/28:20:2f:aa:da/00:00:11:00:00/40 tag 4 ncq 20480 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/58:28:57:aa:da/00:00:11:00:00/40 tag 5 ncq 45056 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7.00: cmd 61/30:30:af:aa:da/00:00:11:00:00/40 tag 6 ncq 24576 out
Oct 1 15:49:43 Commander1024 kernel: res 40/00:14:9f:a8:da/00:00:11:00:00/40 Emask 0x10 (ATA bus error)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: status: { DRDY }
Oct 1 15:49:43 Commander1024 kernel: ata7: hard resetting link
Oct 1 15:49:43 Commander1024 kernel: ata7: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Oct 1 15:49:43 Commander1024 kernel: ata7.00: configured for UDMA/33
Oct 1 15:49:43 Commander1024 kernel: ata7: EH complete
Oct 1 15:49:43 Commander1024 kernel: sd 6:0:0:0: [sde] 976773168 512-byte hardware sectors (500108 MB)
Oct 1 15:49:43 Commander1024 kernel: sd 6:0:0:0: [sde] Write Protect is off
Oct 1 15:49:43 Commander1024 kernel: sd 6:0:0:0: [sde] Mode Sense: 00 3a 00 00
Oct 1 15:49:43 Commander1024 kernel: sd 6:0:0:0: [sde] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Noch attestiert mir der Raidstatus, dass alles in Ordnung sei, die einzelnen (mittlerweile fast minütlichen) Lesefehler, scheinen durch die Fehlerkorrektur und mehrfaches Auslesen der Sektoren wohl noch in den Griff bekommen zu werden.
/dev/md0:
Version : 00.90.03
Creation Time : Sat Dec 1 11:53:34 2007
Raid Level : raid5
Array Size : 1953535744 (1863.04 GiB 2000.42 GB)
Device Size : 488383936 (465.76 GiB 500.11 GB)
Raid Devices : 5
Total Devices : 5
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Wed Oct 1 16:33:49 2008
State : clean
Active Devices : 5
Working Devices : 5
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 64K
UUID : 4b0df8d9:28a1feb8:b46a20fd:1192d6c4
Events : 0.148454
Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1
2 8 33 2 active sync /dev/sdc1
3 8 49 3 active sync /dev/sdd1
4 8 65 4 active sync /dev/sde1
[Update]
Das „Lokalisieren“ der Platte mit der ATA-ID 7, bzw. SCSI-ID 6 ging locker von der Hand, der Tausch ebenfalls. System einfach wieder hochgefahren (obwohl der Tausch sicherlich auch am laufenden System möglich gewesen wäre, aber ich wollte nichts Unnötiges riskieren), die neue Platte partitionieren und dem Raidverbund hinzufügen: Alles kein Problem, der auf mehrere Stunden geschätzte Rebuildvorgang lief auch wie erwartet reibungslos an – bis 80.
Dann passiere leider etwas, dass ich im Nachhinein nur noch schlecht rekonstruieren konnte. Aus welchem Grund auch immer, bekam das Device md0 (das Raid Array) die Benachrichtigung, dass die Platte mit der SCSI-ID 5 nun „offline“ gegangen ist.
Während des Rebuilds ist der Status des Raids schon „degraded“, d. h. die maximale Zahl der abgefangenen HDD-Ausfälle bereits ausgereizt, beim Raid5 wie ich es einsetze ist das maximal 1 Platte, sodass der Ausfall einer weiteren unweigerlich zum totalen Datenverlust führt, wenn weiter Schreibvorgänge durchgeführt werden, was beim Rebuild – dem Wiederherstellen einer Platte aus den Informationen aller anderen – natürlich der Fall ist.
Auf gut deutsch: 1,4TB (TeraByte – 1435GB ) Datenverlust!!
Natürlich hatte ich Backups der wichtigsten Daten, aber allein aufgrund der Menge der Daten, konnte ich bislang nicht alles sichern – und schon gar nicht in Revisionen (mehrere unterschiedlich datierte Versionen). Ob und wie es weitergeht weiß ich noch nicht. Würde gerne nen 3Ware Raid Controller einbauen, der auch Raid6 mit hervorragender Performance meistert, aber auch eine richtig gute Stange Geld kostet. Ich halte Euch auf dem Laufenden!
Dieser Blog und einige, wenige andere Sachen, sind zur Zeit auf einen anderen Server ausgelagert.