The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"badblocks на рейде"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Оптимизация и Промышленные системы (Хранилища данных)
Изначальное сообщение [ Отслеживать ]

"badblocks на рейде"  +2 +/
Сообщение от Анонимко (?), 31-Дек-19, 02:52 
Развернул Ovirt 4.3 и в процессе эксплуатации стали бится образы виртуалок.
Появились сообщения вида
kernel: blk_update_request: I/O error, dev sda, sector 205392128

1) RAID 1 был собран недавно на свежих энтерпрайз дисках, а сами диски вне рейда и по инфе smartctl -a и smtartctl -t long и badblocks тесты успешно проходят.
2) Проверка рейда на консинстентность силами рейд контроллера(PERC H200) проходит без ошибок.

Самое занятное чего я не ожидал и что мне не понятно:

badblocks показывает прямо на рейде /dev/sda 148 битых секторов!
Повторная проверка badblocks после холодного ребута сервера показывает те же сбойные сектора.

Также в процессе проверки badblocks на рейде проявляется деградация скорости проверки.
Изначально скорость проверки идет 1% ~ 1 мин. Потом доходит до 1% ~ 7 мин. Проверка в итоге длилась 5-6 часов.

При тестировании дисков вне рейда скорость проверки не деградирует и держится на тех же 1% ~ 1 мин.

Сейчас склоняюсь к следующим вариантам
- неисправность рейд контроллера
- проблема драйвера, ядра

CentOS 7, ядро 3.10 штатное

Кто нибудь сталкивался, есть идеи?

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 31-Дек-19, 10:28   +/
> Сейчас склоняюсь к следующим вариантам
> - неисправность рейд контроллера
> - проблема драйвера, ядра
> Кто нибудь сталкивался, есть идеи?

Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на грабли с дисками, оказалось - БП помирает.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #3

2. Сообщение от DeerFriend (?), 31-Дек-19, 11:28   +/
Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова прогнать бедблокс.
Если та же проблема с деградацией скорости останется, пересобери рейд без контроллера, через мдадм и тот же тест.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #5

3. Сообщение от Анонимко (?), 31-Дек-19, 15:40   +/
> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> грабли с дисками, оказалось - БП помирает.

При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у меня, и я специально это отметил, адреса битых секторов не меняются.

У вас бились рандомно или всегда те же?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #4

4. Сообщение от Аноним (1), 31-Дек-19, 16:52   +/
>> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у
> меня, и я специально это отметил, адреса битых секторов не меняются.
> У вас бились рандомно или всегда те же?

Битых секторов не было. Но через несколько часов после старта скорость чтения/записи начинала падать, пока вообще не прекращались всякие операции с диском.


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

5. Сообщение от ACCA (ok), 02-Янв-20, 16:02   +/
> Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее
> найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова

Прошивки Dell - это обязательно, но с H200 нужно аккуратно. Их целая куча - H200, H200A, H200B, H200E, H200I. У чувака был неописуемый случай - https://forums.servethehome.com/index.php?threads/dell-h200-.../

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #6, #7

6. Сообщение от Анонимко (?), 19-Янв-20, 01:12   +/
Стояла последняя прошивка по умолчанию.
Пришел к таким действиям:
- Контроллер PERC H200A это один в один LSI 9211-8i. Можно шить прошивками от LSI которые свежее и функциональнее.
- Перепрошил на LSI P20 из FreeDOS. Инструкция в комменте снизу от Zeit(https://blog.michael.kuron-germany.de/2014/11/crossflashing-.../)
- Пересобрал рейд.
- Нарезал партишены, отформатировал, скопировал файлы груба и корень с овиртом в соответствующие разделы.
- Проинсталил груб.
- Все взлетело, данные не потерял.

Как я понял трабл был в порче метаданных рейда. Рейд контроллер показывает меньше объем диска примерно на 1 гиг. По разметке видно, что в хвосте дисков он резервирует область под метаданные. Хотя остается загадкой почему проверка на целостность рейда проходила. Меня это очень напрягало и думал что нужно обязательно перепрошиться либо менять контроллер, чтобы не попасть ни эти грабли вновь. По итогу удалось обнаружить новые LSI прошивки.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

7. Сообщение от Анонимко (?), 19-Янв-20, 01:19   +/
Забыл сказать. После перепрошивки рейд не развалился. Показал последнюю конфу рейда. Я попробовал прогнать еще раз badblocks на нем в надежде, что обновление прошивки уберет сбойные сектора. Но нет, все сыпалось по прежнему. После этого уже сошелся на порче метаданных рейда на самих дисках и  решил пересобрать рейд.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

8. Сообщение от dmitriygessus (ok), 24-Май-20, 23:50   +/
Обнови прошивки Прошивки Dell, все перезагрузи


Ответить | Правка | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2020 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру