The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Очередная порция улучшений в Btrfs, opennews (??), 18-Дек-12, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


50. "Очередная порция улучшений в Btrfs"  +/
Сообщение от dalco (ok), 19-Дек-12, 07:52 
> А оно, простите, нужно? При наличии md / HW RAID? Ну, кроме
> как для извращений "а вот у меня рейд прямо в файловой
> системе"?

Когда конфигурация дискового пула стабильна, то, в большинстве случаев, оно без разницы - какими средствами raid организован (MD/HW/BTRFS/ZFS).

А вот если количество и объем винтов постоянно гуляет, то FS, берущая на себя управление рейдом, оказывается выгоднее - тупо гораздо меньшее количество дисковых операций при изменении конфы дискового пула.

Ответить | Правка | Наверх | Cообщить модератору

53. "Очередная порция улучшений в Btrfs"  +1 +/
Сообщение от AlexAT (ok), 19-Дек-12, 09:33 
> А вот если количество и объем винтов постоянно гуляет

- самое время решить админа премии, а то и уволить, за открытую дестабилизацию системы.

Количество дисков в стабильной системе НЕ ГУЛЯЕТ. Вполне возможно, что постоянно необходимо расширение объёма - но эта операция, на чём бы RAID ни был собран, является операцией критичной, и требует планирования работ. Кроме того, правильное планирование позволяет "гулять" пулы вверх достаточно редко - вместо добавления винта каждый месяц можно поставить 12 винтов сразу, и забыть на полгода.

Ответить | Правка | Наверх | Cообщить модератору

54. "Очередная порция улучшений в Btrfs"  +/
Сообщение от Аноним (-), 19-Дек-12, 10:00 
> Количество дисков в стабильной системе НЕ ГУЛЯЕТ. Вполне возможно, что постоянно необходимо
> расширение объёма - но эта операция, на чём бы RAID ни
> был собран, является операцией критичной, и требует планирования работ. Кроме того,
> правильное планирование позволяет "гулять" пулы вверх достаточно редко - вместо добавления
> винта каждый месяц можно поставить 12 винтов сразу, и забыть на
> полгода.

а что критичного в этой операции? уже давно: вытащил винты из пула, поставил более емкие в режиме нонстоп (хотсвоп) или просто доставил винты, подключил к пулу и пошел пиво пить. юзеры как работали, так и работают дальше ничего не замечая.

Ответить | Правка | Наверх | Cообщить модератору

55. "Очередная порция улучшений в Btrfs"  +4 +/
Сообщение от AlexAT (ok), 19-Дек-12, 10:05 
> а что критичного в этой операции?

Вероятность того, что что-то пойдёт не так в процессе. Как минимум оперативный бэкап перед операцией должен быть. Да, речь про рейды, а не про спаны.

> уже давно: вытащил винты из пула, поставил более емкие в режиме нонстоп

Ага, разбили отказоустойчивость, вытащив винты. Пошли перестраивать массив. И до окончания операции у вас [внезапно] отвалился один из винтов. Дальше что? Вот об этой критичности как раз и речь. Обязательно надо планировать возможность простоя, и заранее продумывать recovery operations в случае сбоя процесса. Даже если это кластер. Потому что выход кластера в нештатный режим - тоже проблема, и серьезная.

> подключил к пулу и пошел пиво пить

А в это время (с)... так и пивом можно подавиться в пессимистичном варианте.

Ответить | Правка | Наверх | Cообщить модератору

60. "Очередная порция улучшений в Btrfs"  +/
Сообщение от Аноним (-), 19-Дек-12, 10:49 
>> а что критичного в этой операции?
> Вероятность того, что что-то пойдёт не так в процессе. Как минимум оперативный
> бэкап перед операцией должен быть. Да, речь про рейды, а не
> про спаны.

Не так пойдет - если вы с пьяного глаза, выдерните винт из соседнего сервера, а потом завалите стойку, запнувшись об свою ногу и в процессе падения умудритесь еще ухватить толстый жгут витой поры.

>> уже давно: вытащил винты из пула, поставил более емкие в режиме нонстоп
> Ага, разбили отказоустойчивость, вытащив винты. Пошли перестраивать массив. И до окончания
> операции у вас [внезапно] отвалился один из винтов. Дальше что? Вот
> об этой критичности как раз и речь. Обязательно надо планировать возможность
> простоя, и заранее продумывать recovery operations в случае сбоя процесса. Даже
> если это кластер. Потому что выход кластера в нештатный режим -
> тоже проблема, и серьезная.

А дальше ничего страшного, у нас же raidz2, а то и raidz3 на шибко больших массивах.

Ответить | Правка | Наверх | Cообщить модератору

64. "Очередная порция улучшений в Btrfs"  +/
Сообщение от AlexAT (ok), 19-Дек-12, 14:04 
> Не так пойдет - если вы с пьяного глаза, выдерните винт из

Наивняк, верящий в 100% надежность железа во время критичных операций с ним, обычно либо быстро переучивается, либо его переучивают с вазелином после первого случая.

> А дальше ничего страшного, у нас же raidz2, а то и raidz3
> на шибко больших массивах.

Флаг в жо^W руки - считать на CPU RS-коды.
http://blog.lexa.ru/2012/09/01/adaptec_5805_raid6_vs_zfs_rai...

Если у вас "шибко большие массивы" - то откуда у вас софтовые рейды, удел нищебродов?

Ну и да - удачи вам в случае чего в forensic с разваленного RAID-Z :)

Ответить | Правка | Наверх | Cообщить модератору

81. "Очередная порция улучшений в Btrfs"  +/
Сообщение от Аноним (-), 19-Дек-12, 17:20 
> Флаг в жо^W руки - считать на CPU RS-коды.

Ну в raid5 IIRC обычная XORка. Это быстро. А верную копию можно вычислить посмотрев с какой из них чексуммы сходятся.

Ответить | Правка | Наверх | Cообщить модератору

90. "Очередная порция улучшений в Btrfs"  +/
Сообщение от AlexAT (ok), 19-Дек-12, 18:12 
> Ну в raid5 IIRC обычная XORка. Это быстро. А верную копию можно
> вычислить посмотрев с какой из них чексуммы сходятся.

Так речь про Z2/Z3 или все-таки про R5/Z?

Ответить | Правка | Наверх | Cообщить модератору

96. "Очередная порция улучшений в Btrfs"  +/
Сообщение от Аноним (-), 19-Дек-12, 18:57 
> Так речь про Z2/Z3 или все-таки про R5/Z?

Про сабжа и raid 5 :)

Ответить | Правка | Наверх | Cообщить модератору

120. "Очередная порция улучшений в Btrfs"  –1 +/
Сообщение от Аноним (-), 20-Дек-12, 06:03 
> Наивняк, верящий в 100% надежность железа во время критичных операций с ним,
> обычно либо быстро переучивается, либо его переучивают с вазелином после первого
> случая.

Да, переучился быстро, после того, как 3варе умирая забрала с собой и данные. Теперь сильно спецефичного железа, перед троганием которого нужно долго чесать левое ухо правой пяткой, не имею.

> Флаг в жо^W руки - считать на CPU RS-коды.
> http://blog.lexa.ru/2012/09/01/adaptec_5805_raid6_vs_zfs_rai...

а мне не критична скорость, мне критична надежность и удобство, в том числе снапшоты, которых в ваших адаптеках сколько, напомните мне.

> Если у вас "шибко большие массивы" - то откуда у вас софтовые
> рейды, удел нищебродов?

еще одна точка отказа, это видимо удел не нищебродов, с чем я вас и поздравляю.

> Ну и да - удачи вам в случае чего в forensic с
> разваленного RAID-Z :)

как бы вам это донести... у меня зфс пережила то, что не пережили железные контроллеры... вижу вы уже поняли, что нельзя полагаться на железо, теперь вам пену у рта надо подтереть и подумать, если вы способны на это.

Ответить | Правка | К родителю #64 | Наверх | Cообщить модератору

154. "Очередная порция улучшений в Btrfs"  +1 +/
Сообщение от Аноним (-), 20-Дек-12, 17:56 
> как бы вам это донести... у меня зфс пережила то,

А на лисяре перец красиво отскрeбал ZFS после всего лишь обычного bad sector.

Ответить | Правка | Наверх | Cообщить модератору

156. "Очередная порция улучшений в Btrfs"  –1 +/
Сообщение от iZEN (ok), 20-Дек-12, 18:11 
>> как бы вам это донести... у меня зфс пережила то,
> А на лисяре перец красиво отскрeбал ZFS после всего лишь обычного bad sector.

Помнится, у него был пул в состояние FAULTED (уже не DEGRADED) и не было на тот момент штатной команды "zpool import -F".

Ответить | Правка | Наверх | Cообщить модератору

161. "Очередная порция улучшений в Btrfs"  +/
Сообщение от Аноним (-), 20-Дек-12, 22:39 
> Помнится, у него был пул в состояние FAULTED (уже не DEGRADED) и
> не было на тот момент штатной команды "zpool import -F".

Проблема на самом деле не в том. А в том что средств для починки или хотя-бы вытаскивания данных в случае серьезно факапнутого пула как я понимаю нет и не планируется. Такой подход невыгодно отличается от традиционного в случае когда что-то пошло не так, факап получился и авария вышла за те рамки которые предусматривали проектировщики ФС в своем сферическом вакууме.

Ответить | Правка | Наверх | Cообщить модератору

168. "Очередная порция улучшений в Btrfs"  –1 +/
Сообщение от iZEN (ok), 21-Дек-12, 20:19 
>> Помнится, у него был пул в состояние FAULTED (уже не DEGRADED) и
>> не было на тот момент штатной команды "zpool import -F".
> Проблема на самом деле не в том. А в том что средств
> для починки или хотя-бы вытаскивания данных в случае серьезно факапнутого пула
> как я понимаю нет и не планируется.

Видишь ли, сам принцип CoW не может позволить навернуться существующим данным и новым данным записаться "не туда". Поэтому для починки упавшей CoW-ФС достаточно отмотать её состояние на некоторое время назад, где метаданные были целы (метаданные тоже подчиняются принципу CoW). Это делается чаще автоматически при восстановлении после сбоев, но иногда случаются казусы при серьёзных сбоях, когда пул потерял избыточность и получить _непротиворечивые_ метаданные неоткуда. В последнем случае требуется ручной импорт пула командой "zpool import -F" с целью проанализировать потери массива скрабингом (scrub работает только на импортированном пуле) и попытаться достать данные, которые уцелели.

> Такой подход невыгодно отличается
> от традиционного в случае когда что-то пошло не так, факап получился
> и авария вышла за те рамки которые предусматривали проектировщики ФС в
> своем сферическом вакууме.

Классический подход с fsck связан с offline-проверкой и сваливанием в кучу ошмётков данных в /.lost+found — разгребайте сами кашу из анонимных файлов.

scrub же выполняется на примонтированном пуле online и даёт полную картину разрушения вплоть до имён потерянных файлов с полными путями к ним.

Ответить | Правка | Наверх | Cообщить модератору

177. "Очередная порция улучшений в Btrfs"  +1 +/
Сообщение от Аноним (-), 27-Дек-12, 23:09 
>> для починки или хотя-бы вытаскивания данных в случае серьезно факапнутого пула
>> как я понимаю нет и не планируется.
> Видишь ли, сам принцип CoW не может позволить навернуться существующим данным

Зато может помочь сбой в фирмвари накопителя, логики контроллера, драйверов устройств и ФС, различные глюки оборудования (RAM, CPU, каналов передачи) и даже просто элементарные внезапно вылездшие бэды.

Да, ваша долбаная ZFS рассчитана только на аварии не крупнее проектного дизайна. А если у вас факап запроектного масштаба (т.е. не тот сферический факуум который предусмотрели разработчики) - ничего не знаем, разгребайте свое радиоактивное гэ сами, а мы не при чем, это не мы тот РБМК-1000 дизайнили и поставляли, наша хата вообще с краю, ничего не знаю: мы написали AS IS и все такое - попробуйте теперь с нас слупить чего-нибудь. А как вы там эти радиоактивные ошметки соберете - всем пофиг. Пускайте дескать парней с хэксэдитором, если там что-то ценное а нужного бэкапа вдруг нет.

> и новым данным записаться "не туда".

Так может думать только наивный чукотский юножа^W^W жабист, который просто не знает как и что сделано а потому очень хило представляет себе как это работает. Однако замечу что даже элементарнейшие бэд-сектора и любые глюки железа уже не вписываются в эту сферически-вакуумную концепцию. Что в реальном мире может являть проблему.

> Поэтому для починки упавшей CoW-ФС достаточно отмотать её состояние на некоторое
> время назад, где метаданные были целы (метаданные тоже подчиняются принципу CoW).

Есть одно важное допущение: допускается что вся эта механика до точки отказа не пострадала и сможет корректно отработат. А какой-нибудь подлый бэд вылезший на (мета)данных записанных год назад может и не разделить оптимизм по этому поводу :). В такой ситуации попытка отмотать может делать даже хуже, потому что довольно сложная логика нарвется на редкое краевое ошибочное состояние. Из которого к тому же может не быть осмысленного (в плане продолжения корректной работы) выхода в хучшем случае. По нашему это называетсы "нащла коса на камень". Неплохо отражает смысл того что получается когда CoW пытается откатить снапшот и тут вдруг окжется что именно там половина данных/метаданных на наше несчастье дали дуба. Никакого рекавери из такого сценария CoW сам по себе не дает: это "запроектная" авария. Хотя пачка бэдов на винче - вполне себе наблюдаемое явление природы.

> потери массива скрабингом (scrub работает только на импортированном пуле) и попытаться
> достать данные, которые уцелели.

Вот, до тебя начинает доходить почему fsck не настолько уж и маразм.

>> и авария вышла за те рамки которые предусматривали проектировщики ФС в
>> своем сферическом вакууме.
> Классический подход с fsck связан с offline-проверкой

Что является весьма умным вариантом - при эксклюзивном доступе к диску утиль может делать ряд допушений которые иначе делать не вышло бы. Это ж не для красоты придумали. А из соображения минимизации сложности, улучшения надежности и предсказуемости таковых операций. Например агрессивные попытки починить смонтированный диск к которому ведется активный доступ могут не вести к хорошим результатам. Просто потому что при этом надо разруливать одновременный доступ + деликатные операции + данные ФС потенциально разрушены. Поэтому онлайн обычно если и делают починку то в довольно лайтовой версии.

> и сваливанием в кучу ошмётков данных в /.lost+found — разгребайте
> сами кашу из анонимных файлов.

А это только когда удалось понять что вон то возможно было неким файлом/дирой, но совершенно не удалось понять к чему оно относилось. Это конечно не идеальный способ починки, но единственной альтернативой в таком случае является разве что просто совсем очистить спорную территорию.

> scrub же выполняется на примонтированном пуле online и даёт полную картину разрушения
> вплоть до имён потерянных файлов с полными путями к ним.

Как ты понимаешь, имена хранятся в метаданных. Чтобы их оттуда вынуть - эти метаданные должны для начала быть. А вот этого никто не обещал, между прочим. Частично такое лечится райд-уровнями и прочая - вероятность ситуации снижается. Зато если уж завалится, +10 к геморности разруливания вручную каждый лишний уровень абстракции даст. Дата рекавери лабы в курсе и за любой вид рэйда сразу накидывают изрядно бабла к стоимости процедуры.

Ответить | Правка | К родителю #168 | Наверх | Cообщить модератору

179. "Очередная порция улучшений в Btrfs"  +/
Сообщение от AlexAT (ok), 28-Дек-12, 09:37 
Плюсую. Всегда приятно видеть человека, разбирающегося в работе системы глубоко.
Ответить | Правка | К родителю #177 | Наверх | Cообщить модератору

181. "Очередная порция улучшений в Btrfs"  +/
Сообщение от iZEN (ok), 29-Дек-12, 17:07 
>> Помнится, у него был пул в состояние FAULTED (уже не DEGRADED) и
>> не было на тот момент штатной команды "zpool import -F".
> Проблема на самом деле не в том. А в том что средств
> для починки или хотя-бы вытаскивания данных в случае серьезно факапнутого пула
> как я понимаю нет и не планируется.

zdb — штатная утилита отладки ZFS.

> Такой подход невыгодно отличается
> от традиционного в случае когда что-то пошло не так, факап получился
> и авария вышла за те рамки которые предусматривали проектировщики ФС в
> своем сферическом вакууме.

Ну, напиши бывшим разработчикам Sun, создавшим ZFS, что они дураки и ничего не смыслят в файловых системах. Заодно задай вопрос, почему нет fsck.

Ответить | Правка | Наверх | Cообщить модератору

182. "Очередная порция улучшений в Btrfs"  +/
Сообщение от AlexAT (ok), 29-Дек-12, 22:13 
> Ну, напиши бывшим разработчикам Sun, создавшим ZFS, что они дураки и ничего
> не смыслят в файловых системах. Заодно задай вопрос, почему нет fsck.

Проще задать вопрос: а собственно, где ныне Sun со своими мега-разработками :)

Ответить | Правка | К родителю #181 | Наверх | Cообщить модератору

56. "Очередная порция улучшений в Btrfs"  –1 +/
Сообщение от dalco (ok), 19-Дек-12, 10:09 
>Количество дисков в стабильной системе НЕ ГУЛЯЕТ. Вполне возможно, что постоянно необходимо расширение объёма - но эта операция, на чём бы RAID ни был собран, является операцией критичной, и требует планирования работ. Кроме того, правильное планирование позволяет "гулять" пулы вверх достаточно редко - вместо добавления винта каждый месяц можно поставить 12 винтов сразу, и забыть на полгода.

Я уважаю ваше мнение и оно вполне справедливо для идеального случая. К сожалению, в реальной жизни иногда тупо нет свободного места в дисковых полках или свободных винтов, которые можно запихнуть туда "про запас" на пол-года вперед. И проблема не в админе, а в финансировании (начальство на спичках экономит). Или, что тоже часто бывает, всплывает задача, которую надо решить "здесь и сейчас" без оглядки на планы КПСС для третьей пятилетки.

Так что лишняя гибкость в конфигурации дискового пула никому не помешает.

Если оно _вам_ не нужно, то это еще не значит, что оно _никому_ не нужно ⓒ

Ответить | Правка | К родителю #53 | Наверх | Cообщить модератору

57. "Очередная порция улучшений в Btrfs"  +1 +/
Сообщение от AlexAT (ok), 19-Дек-12, 10:15 
> Я уважаю ваше мнение и оно вполне справедливо для идеального случая.

Оно справедливо для случая, когда и админ, и руководство - вменяемы. В России это встречается не часто, угу.

> К сожалению, в реальной жизни иногда тупо нет свободного места в дисковых
> полках или свободных винтов, которые можно запихнуть туда "про запас" на
> пол-года вперед.

Это проблема планирования нагрузки, и решается она административно.

> И проблема не в админе, а в финансировании (начальство на спичках экономит).

Ну Россия, да, угу...

> Если оно _вам_ не нужно, то это еще не значит, что оно
> _никому_ не нужно ⓒ

Оно не не нужно, оно неправильно и рискованно.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру