URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 47173
[ Назад ]

Исходное сообщение
"Упал программный RAID-5. Нужна помощь."

Отправлено Barmaley , 13-Авг-04 17:06 
ОС - Linux-RH-7.3, ядро 2.4.26. Программный RAID-5 из 9-ти дисков IBM-36Gb Model: IC35L036UWD210-0 Rev: S5BS
Биосом сервера все диски определяются верно. Контроллер встроенный (Adaptec AIC-7896) на материнке (Supermicro P6DGH)
Uptime до краха приблизительно около года (последние регламентные работы).

конфигурация при запуске:

raiddev /dev/md0
raid-level 5
nr-raid-disks 9
chunk-size 32k
persistent-superblock 1
nr-spare-disks 0
device /dev/sda1
raid-disk 0
device /dev/sdb1
raid-disk 1
device /dev/sdc1
raid-disk 2
device /dev/sdd1
raid-disk 3
device /dev/sde1
raid-disk 4
device /dev/sdf1
raid-disk 5
device /dev/sdg1
raid-disk 6
device /dev/sdh1
raid-disk 7
device /dev/sdi1
raid-disk 8

Как я понял из вывода lsraid -A -a /dev/md0 -d /dev/sda1

[dev 9, 0] /dev/md0 87D59135.545CB76A.C41A16E1.E06FE57D offline
[dev 8, 1] /dev/sda1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev 8, 17] /dev/sdb1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev 8, 33] /dev/sdc1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev 8, 49] /dev/sdd1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev 8, 65] /dev/sde1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev ?, ?] (unknown) 00000000.00000000.00000000.00000000 missing
[dev 8, 97] /dev/sdg1 87D59135.545CB76A.C41A16E1.E06FE57D failed
[dev 8, 113] /dev/sdh1 87D59135.545CB76A.C41A16E1.E06FE57D good
[dev 8, 129] /dev/sdi1 87D59135.545CB76A.C41A16E1.E06FE57D good

произошёл отказ двух дисков, но в то же время диски вроде как живы:
fdisk -l

Disk /dev/sda: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sda1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdb: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdb1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdc: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdc1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdd: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdd1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sde: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sde1 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdf: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdf1 1 35003 35843056 fd Linux raid autodetec

Disk /dev/sdg: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdg1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdh: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdh1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/sdi: 64 heads, 32 sectors, 35003 cylinders
Units = cylinders of 2048 * 512 bytes

Device Boot Start End Blocks Id System
/dev/sdi1 * 1 35003 35843056 fd Linux raid autodetect

Disk /dev/hda: 255 heads, 63 sectors, 5005 cylinders
Units = cylinders of 16065 * 512 bytes

на команду raidstart /dev/md0 выдаёт следующее:

md: superblock update time inconsistency -- using the most recent one
md: kicking non-fresh sdg1 from array!
md0: removing former faulty sdg1!
raid5: not enough operational devices for md0 (2/9 failed)
RAID5 conf printout:
--- rd:9 wd:7 fd:2
disk 0, s:0, o:1, n:0 rd:0 us:1 dev:sda1
disk 1, s:0, o:1, n:1 rd:1 us:1 dev:sdb1
disk 2, s:0, o:1, n:2 rd:2 us:1 dev:sdc1
disk 3, s:0, o:1, n:3 rd:3 us:1 dev:sdd1
disk 4, s:0, o:1, n:4 rd:4 us:1 dev:sde1
disk 5, s:0, o:0, n:5 rd:5 us:1 dev:[dev 00:00]
disk 6, s:0, o:0, n:6 rd:6 us:1 dev:[dev 00:00]
disk 7, s:0, o:1, n:7 rd:7 us:1 dev:sdh1
disk 8, s:0, o:1, n:8 rd:8 us:1 dev:sdi1
raid5: failed to run raid set md0
md: pers->run() failed ...
md :do_md_run() returned -22

команда fsck /dev/md0 не проходит. матерится на суперблок.

бэкапа нет. т.е. он есть, но хранится на этом же массиве  .
общий объём информации ~200Gb.
нужно как-то восстановить всю информацию. как - незнаю  .
прошу помощи.

С уважением.


Содержание

Сообщения в этом обсуждении
"Упал программный RAID-5. Нужна помощь."
Отправлено Nikolaev D. , 13-Авг-04 17:15 
>Uptime до краха приблизительно около года (последние регламентные работы).

за raid-ом всегда следить надо ВНИМАТЕЛЬНО.

>Как я понял из вывода lsraid -A -a /dev/md0 -d /dev/sda1
>
>[dev 9, 0] /dev/md0 87D59135.545CB76A.C41A16E1.E06FE57D offline
>[dev 8, 1] /dev/sda1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev 8, 17] /dev/sdb1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev 8, 33] /dev/sdc1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev 8, 49] /dev/sdd1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev 8, 65] /dev/sde1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev ?, ?] (unknown) 00000000.00000000.00000000.00000000 missing
смотри почему он у тебя missing
>[dev 8, 97] /dev/sdg1 87D59135.545CB76A.C41A16E1.E06FE57D failed
Один диск у тебя вылетел
>[dev 8, 113] /dev/sdh1 87D59135.545CB76A.C41A16E1.E06FE57D good
>[dev 8, 129] /dev/sdi1 87D59135.545CB76A.C41A16E1.E06FE57D good

>бэкапа нет. т.е. он есть, но хранится на этом же массиве  
супер !

>.
>общий объём информации ~200Gb.
>нужно как-то восстановить всю информацию. как - незнаю  .
>прошу помощи.
если не устранишь причину почему у тебя один дик missing то вся инфа потеряна.


"Упал программный RAID-5. Нужна помощь."
Отправлено Barmaley , 13-Авг-04 17:28 
я не знаю, как определить, почему этот диск у меня missing.
fdisk показывает нормальную инфу по этому диску. вроде как живой.
как и какими средствами найти причину?

"Упал программный RAID-5. Нужна помощь."
Отправлено Nikolaev D. , 13-Авг-04 17:42 
>я не знаю, как определить, почему этот диск у меня missing.
>fdisk показывает нормальную инфу по этому диску. вроде как живой.
>как и какими средствами найти причину?

http://www.redhat.com/archives/fedora-list/2004-July/msg0380...

>lsraid shows partitions going away all the time but if I check again a day or two later they are fine again
привет линксоидам :)


"Упал программный RAID-5. Нужна помощь."
Отправлено Nikolaev D. , 13-Авг-04 17:46 
>>lsraid shows partitions going away all the time but if I check again a day or two later they are fine again
>привет линксоидам :)


или можно рискнуть
http://66.102.9.104/search?q=cache:2kt9Miv5lAIJ:www.j2.ru/fr...


"Упал программный RAID-5. Нужна помощь."
Отправлено Barmaley , 13-Авг-04 18:06 
>>>lsraid shows partitions going away all the time but if I check again a day or two later they are fine again
>>привет линксоидам :)
>
>
>или можно рискнуть
>http://66.102.9.104/search?q=cache:2kt9Miv5lAIJ:www.j2.ru/fr...

спасибо за ссылку, но к сожалению, ответы по ссылке не работают :(


"Упал программный RAID-5. Нужна помощь."
Отправлено Nikolaev D. , 13-Авг-04 18:08 
>>или можно рискнуть
>>http://66.102.9.104/search?q=cache:2kt9Miv5lAIJ:www.j2.ru/fr...
>
>спасибо за ссылку, но к сожалению, ответы по ссылке не работают :(

ищи в кэшэ гугла


"Упал программный RAID-5. Нужна помощь."
Отправлено Barmaley , 13-Авг-04 19:43 
вылечилось всё командой mdadm --assemble --force /dev/md0 (массив запустился). к сожалению, утилиты из raidtools не помогли.
далее были подключены оба якобы фолтовых диска
raidhoadd /dev/md0 /dev/sdh1 и т.д. и весь массив ожил

всем спасибо за помощь.