The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Facebook открыл модуль Flashcache для организации кэшировани..., opennews (ok), 30-Апр-10, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


27. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Евгений Ваганович (?), 01-Май-10, 05:11 
>>2. если случайно затянуть с п.1, то получим потерю данных
>
>Кто-то отменил raid-массивы и hotspare?

учитывая время доступа к ssd, рейд контроллер, который сохранит данные характеристики, будет очень недешев для ssd - и в итоге мы вместо одного винта покупаем 2, да еще и рейд контроллер, который будет стоит явно не меньше этих ssd - и тут возникает вопрос - а может лучше переплатить раза в 2 и доставить оперативы, чем применять сырую технологию, да еще и недешевую? так что очень навряд ли кто то будет юзать рейды в данных схемах с ssd

Ответить | Правка | Наверх | Cообщить модератору

28. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 05:23 
>[оверквотинг удален]
>>
>>Кто-то отменил raid-массивы и hotspare?
>
>учитывая время доступа к ssd, рейд контроллер, который сохранит данные характеристики, будет
>очень недешев для ssd - и в итоге мы вместо одного
>винта покупаем 2, да еще и рейд контроллер, который будет стоит
>явно не меньше этих ssd - и тут возникает вопрос -
>а может лучше переплатить раза в 2 и доставить оперативы, чем
>применять сырую технологию, да еще и недешевую? так что очень навряд
>ли кто то будет юзать рейды в данных схемах с ssd

Лол, ssd+mdraid вполне жизнеспособная конфигурация на _зеркале_(если жесткий сброс, одна половинка просто засинкается о другую, кэш записи с BBU не нужны), и используется во многих нагруженных проектах, бюджет которых, вероятно, превышает месячную зарплату большей части отметившихся в этой теме.

А еще, SAN с SSD это уже реальность почти у всех вендоров.

Ответить | Правка | Наверх | Cообщить модератору

30. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Anon Y Mous (?), 01-Май-10, 18:21 
> Лол, ssd+mdraid вполне жизнеспособная конфигурация на _зеркале_(если жесткий сброс, одна половинка просто засинкается о другую, кэш записи с BBU не нужны)

А как определить, на какой половинке целостные данные, а на какой нет, чтобы выяснить, какую половинку засинкивать о другую?

Ответить | Правка | Наверх | Cообщить модератору

31. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 18:30 
>> Лол, ssd+mdraid вполне жизнеспособная конфигурация на _зеркале_(если жесткий сброс, одна половинка просто засинкается о другую, кэш записи с BBU не нужны)
>
>А как определить, на какой половинке целостные данные, а на какой нет,
>чтобы выяснить, какую половинку засинкивать о другую?

Никак, как и в hardware зеркале. Рейд не панацея в вопросе сохранности данных(эту роль могут выполнять только бэкапы), а средство добавления девяток после запятой в стабильность сервиса.
Тот же пятый вообще русская рулетка, 6-ой безумно тормозной, десятка принципиально ни чем не лучше в вопросах надежности, чем зеркало.
raid-z не такой быстрый(в сравнении с raid10), как бы это не хотелось кучи местных фанатиков.

рулит (имхо) только 60 в SAN, и то, с оговорками (по стоимости инвестиций и места, прежде всего)


Но в реальной ситуации, обычно, тот же md, gmirror, или любой аппаратный контроллер без проблем выкинет битый диск, при ошибке ввода-вывода

Ответить | Правка | Наверх | Cообщить модератору

32. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 19:59 

>raid-z не такой быстрый(в сравнении с raid10), как бы это не хотелось
>кучи местных фанатиков.

*куче, сорри

Ответить | Правка | Наверх | Cообщить модератору

33. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Anon Y Mous (?), 01-Май-10, 20:31 
> Никак, как и в hardware зеркале.

То есть решение получается нежизнеспособное, если даже способа определить, какой диск с другим синхронизировать нету?

> Рейд не панацея в вопросе сохранности данных

Речь не о сохранности, а о целостности данных, или, если угодно, о непротиворечивости содержимого подзеркал.

> raid-z не такой быстрый(в сравнении с raid10), как бы это не хотелось кучи местных фанатиков.

Да ну? Неужели во всех случаях?

> Но в реальной ситуации, обычно, тот же md, gmirror, или любой аппаратный контроллер без проблем выкинет битый диск, при ошибке ввода-вывода

А если нет ошибки ввода-вывода, а данные между подзеракалами различаются, что будут делать md, gmirror или аппаратный контроллер?

Ответить | Правка | К родителю #31 | Наверх | Cообщить модератору

34. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 20:53 
>[оверквотинг удален]
>
>То есть решение получается нежизнеспособное, если даже способа определить, какой диск с
>другим синхронизировать нету?
>
>> Рейд не панацея в вопросе сохранности данных
>
>Речь не о сохранности, а о целостности данных, или, если угодно, о
>непротиворечивости содержимого подзеркал.
>А если нет ошибки ввода-вывода, а данные между подзеракалами различаются, что будут
>делать md, gmirror или аппаратный контроллер?

Если данные оказались испорчены (и нет ошибки ввода-вывода), то raid1 средствами аппаратного контроллера, md, или geom уже без разницы: данные неконсистентны, и вариант только один, восстановление из бэкапов.

Если жесткий сброс по питанию, софт-зеркало поднимется после синка одной половинки о другую, аппаратный контроллер же запишет консистентные данные из кэша.
Разница только в том, что софт-зеркало какое-то время потормозит (по моей практике SAS/SCSI софт-зеркала синкаются за 20-30 минут)

Если же совпадут события неконсистентных данных на любой из половинок зеркала, и сброс по питанию, то данным, вне зависимости от наличия кэша защищенного батарейкой, в любом случае каюк (ситуация идентична первой)

Пятый рейд, например, имеет контроль четности, но сейчас(на текущих объемах дисков) его использование лотерея, так как во время синка рейда, после замены диска, запросто может вывалиться еще один диск.
Настоящую надежность может дать только 6/60, + интересные технологии есть в raid-z

Что бы избежать случая неконсистентности данных, нужно обязательно ставить в крон (на любом типе raid, некоторые аппаратные контроллеры это делают сами) cli-команду для переодической проверки консистентности и наличия bad-секторов, пока raid избыточен, в зеркале будет выкинута битая половина, при наличии бэд-сектора, а в рейдах с проверкой четности, исправлена ошибка, при ее наличии

>> raid-z не такой быстрый(в сравнении с raid10), как бы это не хотелось кучи местных фанатиков.
>
>Да ну? Неужели во всех случаях?

Главная проблема zfs то, то она не параллельная, и тем более не кластерная, как, впрочем, и btrfs, поэтому device-mapper(впрочем, btrfs его и не перечеркивает) и geom в обозримом будущем никуда не денутся, а для geom для фряхи нужен аналог параллельной фс (для ряда на самом деле распространенных задач вроде HA-кластеров под web)вроде gfs/ocfs, надеюсь, коммюнити что-то такое таки родит.

Ответить | Правка | Наверх | Cообщить модератору

35. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 20:58 
>>[оверквотинг удален]
>>
>>То есть решение получается нежизнеспособное, если даже способа определить, какой диск с

З.Ы. Это все лирика, и в любом случае, в реальной ситуации mirror и пятый рейд на порядки надежнее, чем одиночный диск любого типа, но пятого рейда лучше либо избегать, либо хорошо бэкапить, так как риск развала во время синка действительно существеннен

З.З.Ы. забавляет, как фанатики носятся с проверкой четности _данных_ на файловой системе, но при этом используют PC-систему без ECC памяти, часто откровенно кривой и несертифицированный софт, написанный на пых-пыхе студентом без какого-то адекватного коммюнити, но зато сверху "православной" ZFS, а бэкапы у нас на соседний диск, который сгорает вместе с ДЦ hosting.ua :)

Ответить | Правка | Наверх | Cообщить модератору

36. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Anon Y Mous (?), 01-Май-10, 21:35 
> Если жесткий сброс по питанию, софт-зеркало поднимется после синка одной половинки о другую

Остается открытым вопрос, какую половину выбрать в качестве источника данных для синхронизации

> а в рейдах с проверкой четности, исправлена ошибка, при ее наличии

Каким образом? Предположим, что при проверке четности полоски RAID была обнаружена ошибка этой самой четности. Как определить, какой из дисков нужно исправлять?

> Главная проблема zfs то, то она не параллельная, и тем более не кластерная

Вопрос был более локального характера - о скорости RAID-Z и о том, насколько он подходит для разных классов задач. А не о том, что ZFS - локальная файловая система. RAID-Z действительно может быть тем еще тормозом на определенных задачах, и показывать более чем приличную производительность и стоимость хранения на других. Каких, знаете?

Ответить | Правка | К родителю #34 | Наверх | Cообщить модератору

37. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 01-Май-10, 21:44 
>> Если жесткий сброс по питанию, софт-зеркало поднимется после синка одной половинки о другую
>
>Остается открытым вопрос, какую половину выбрать в качестве источника данных для синхронизации

Если диски не битые, то без разницы: на один диск последний флэш был на одну секунду раньше, а на другой на одну секунду позже, и что?
Все равно при сбросе питания рабочие данные в приложениях были утеряны(велика ли разница, на одну секунду туда, или сюда?), если ФС сверху журналируемая, ничего плохого не произойдет. То же и в случае с innodb/postgre/и пр. бд с журналами.
В UFS без всяких журналов(через geom) и myisam можно в любом случае получить проблемы, вне зависимости от наличия BBU

В общем, тезис: bbu для зеркала не нужен(нет, конечно кто-то может не желать ждать на тех же SATA под нагрузкой 5-6 часов, пока оно досинкается, в этом случае BBU оправдано, но вообще это не нормально, если сервер часто сбрасывается по питанию), и вообще зеркало рулит (на ряде задач, если не толкать его фанатично в каждую дырку, как это делают фанатики с zfs)

Напомню, что в данном конкретном треде обсуждалась оправданность применения софтового зеркала из ssd-дисков, я последовательно пояснила, почему это можно делать (надеюсь, кому-то помогла)

>> а в рейдах с проверкой четности, исправлена ошибка, при ее наличии
>
>Каким образом? Предположим, что при проверке четности полоски RAID была обнаружена ошибка
>этой самой четности. Как определить, какой из дисков нужно исправлять?

Извините, я уже и так достаточно много рассказала, чего Вы, по всей видимости, не знали(должно быть стыдно, так как азы :)) ).
Предлагаю RFTM по тем же redbook, там Все есть. Судя по Вашим комментариям на форуме, Вы совсем не новичек, и без проблем сможете прочитать сами документацию по любому hw контроллеру :)

>> Главная проблема zfs то, то она не параллельная, и тем более не кластерная
>
>Вопрос был более локального характера - о скорости RAID-Z и о том,
>насколько он подходит для разных классов задач. А не о том,
>что ZFS - локальная файловая система. RAID-Z действительно может быть тем
>еще тормозом на определенных задачах, и показывать более чем приличную производительность
>и стоимость хранения на других. Каких, знаете?

Не поняла вопроса :)

а по производительности, raid10 в ряде случаев просто безальтернативен(особенно при интенсивном i/o на запись в четырехшпиндельных серверах), а его zfs предложить не может (в отличае от md или geom), но 10-ку использовать без bbu можно только на некритичных задачах (думаю, очевидно почему), поэтому raid10 через geom/md это совсем low end, когда _нужно_ быстро, а денег нет совсем.
Но по-нормальному, на этой задаче нужен аппаратный контроллер с bbu

При большом же числе шпинделей весь мир закупается СХД :)

Ответить | Правка | Наверх | Cообщить модератору

38. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Anon Y Mous (?), 02-Май-10, 00:26 
> Если диски не битые, то без разницы

Ну почему же: на одном могут быть правильные данные, на другом - нет, так что разница есть - в одном случае вы исправите плохую копию и восстановите избыточность, в другом - уничтожите последнюю хорошую.

> если ФС сверху журналируемая, ничего плохого не произойдет

см. пример выше; вдруг это произойдет для блока журнала?

> и вообще зеркало рулит (на ряде задач, если не толкать его фанатично в каждую дырку, как это делают фанатики с zfs)

Зеркало действительно неплохой вариант во многих случаях, а зеркало в его реализации в ZFS - неплохой вдвойне, и вовсе не потому, что с ним носятся фанатики.

> Извините, я уже и так достаточно много рассказала, чего Вы, по всей видимости, не знали(должно быть стыдно, так как азы :)) ).

А вы забавная. Я ведь даже не просил все это рассказывать - все это расписано в документации, книжках и так далее. Я всего лишь задавал вопросы, рассчитывая, что они заставят вас задуматься. Видимо, пока не заставили.

> Не поняла вопроса :)

У RAID-Z есть особенность, которая делает его не очень пригодным для нагрузок с определенными свойствами (даже в сравнении с RAID-5 и аналогами из того же количества дисков). Знаете какими?

> а по производительности, raid10 в ряде случаев просто безальтернативен(особенно при интенсивном i/o на запись в четырехшпиндельных серверах), а его zfs предложить не может (в отличае от md или geom)

Строго говоря, вы правы - ZFS не предоставляет прямого аналога RAID-0, то есть механизма строго детерминированного распределения блоков данных по блокам дисков, входящих в RAID-0. Однако на уровне пула ZFS осуществляет динамическое чередование своих логических блоков по устройствам верхнего уровня в пуле. То есть пул, состоящих из двух зеркал можно с некоторой натяжкой называть аналогом RAID 1+0.

> но 10-ку использовать без bbu можно только на некритичных задачах (думаю, очевидно почему), поэтому raid10 через geom/md это совсем low end, когда _нужно_ быстро, а денег нет совсем.
> Но по-нормальному, на этой задаче нужен аппаратный контроллер с bbu

BBU - это тоже не панацея. BBU имеют свойство выходить из строя в самый неподходящий момент, требуют периодического обслуживания и замены, позволяют сохранять содержимое кэша в течение ограниченного времени, привязывают к определенной модели или определенному производителю контроллера. Некоторых это заставляет покупать по два контроллера и один класть в стол (что не помогает сохранению собственно BBU). И эти минусы могут перевесить плюсы даже не в low-end решениях. Хотя надо признать, что это достаточно распространенные и во многом понятные решения.

Ответить | Правка | Наверх | Cообщить модератору

39. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 02-Май-10, 00:47 
>> Если диски не битые, то без разницы
>
>Ну почему же: на одном могут быть правильные данные, на другом -
>нет, так что разница есть - в одном случае вы исправите
>плохую копию и восстановите избыточность, в другом - уничтожите последнюю хорошую.
>
>
>> если ФС сверху журналируемая, ничего плохого не произойдет
>
>см. пример выше; вдруг это произойдет для блока журнала?

Не бывает плохих или хороших данных для зеркала. Зеркало вообще не проверяет консистентность блоков данных и метаданных! Если метаданные различаются, рейд ресинкается, и все (других вариантов нет)

Вы в любой момент можете изъять из зеркала любую из его половин, и ничего не потеряете, так как на обе половины консистентны.

Более того, на другая половина так же консистентна :) "Правильные данные" и зеркало это совершенно перепендикулярные понятия, оно вообще не проверяет блоки между дисками на консистентность.

В любой момент(после жесткого сброса) можно засинкать любую из половин о другую, и ничего не потерять.

Именно по этой причине нет никаких веских причин не использовать софт-зеркала в отственных проектах (в отличае от 5/10/6 и т д)

Наличие же битых секторов на диске, с которого идет синк, это уже упущение системного администратора: нужно было ставить в крон регулярный чек.

При исправности же носителей, нет никакой разницы с какого из дисков синкать данные, и понятие "правильности" диска просто не применимо и оторвано от реальной практики, и является демагогией.

>> Извините, я уже и так достаточно много рассказала, чего Вы, по всей видимости, не знали(должно быть стыдно, так как азы :)) ).
>
>А вы забавная. Я ведь даже не просил все это рассказывать -
>все это расписано в документации, книжках и так далее. Я всего
>лишь задавал вопросы, рассчитывая, что они заставят вас задуматься. Видимо, пока
>не заставили.

Вас тоже :) Вы не понимаете, как работает софт-зеркала(и hardware), и не понимаете, что чексуммы данных, имеющиеся в zfs, это не панацея на любой случай в жизни (а в ряде случаев, особенно на плохом оборудовании вроде "серверов" без ECC памяти(на которые так часто в бюджетных ДЦ ставят фрю) откровенно бесполезная фича, так как из ОЗУ могут попасть уже битые, но с точки зрения ФС консистентные данные - но не приложения!)

Стоит так же вспомнить про многочисленные баги, которые есть в любых приложениях, сбоях даже при ECC памяти при перегреве, например, сервера, и т д. То есть, нет технической возможности в 100% случаев обеспечить на дисках именно то, что мы рассчитываем там увидеть.

zfs интересное решение, но надоели, если честно, носится с ним как с писанной торбой, у нее достаточно узкая область применимости и существенные недостатки, прежде всего по ресурсоемкости

>[оверквотинг удален]
>того же количества дисков). Знаете какими?
>
>> а по производительности, raid10 в ряде случаев просто безальтернативен(особенно при интенсивном i/o на запись в четырехшпиндельных серверах), а его zfs предложить не может (в отличае от md или geom)
>
>Строго говоря, вы правы - ZFS не предоставляет прямого аналога RAID-0, то
>есть механизма строго детерминированного распределения блоков данных по блокам дисков, входящих
>в RAID-0. Однако на уровне пула ZFS осуществляет динамическое чередование своих
>логических блоков по устройствам верхнего уровня в пуле. То есть пул,
>состоящих из двух зеркал можно с некоторой натяжкой называть аналогом RAID
>1+0.

Попробуйте рассказать, но не думаю, что человек, не понимающий как работает зеркало, может рассказать что-то новое.
Уверяю Вас, про zfs я читала, ставила Solaris что бы посмотреть, и обдумываю о вариантах использования в том числе с фрей под узкую задачу - файлопомойки (так как в остальных случаях lvm и clvm мне кажутся гораздо мощнее и приспособленнее к реальным условиям и требованиям)

>> но 10-ку использовать без bbu можно только на некритичных задачах (думаю, очевидно почему), поэтому raid10 через geom/md это совсем low end, когда _нужно_ быстро, а денег нет совсем.
>> Но по-нормальному, на этой задаче нужен аппаратный контроллер с bbu
>
>BBU - это тоже не панацея. BBU имеют свойство выходить из строя
>в самый неподходящий момент, требуют периодического обслуживания и замены, позволяют сохранять
>содержимое кэша в течение ограниченного времени, привязывают к определенной модели или
>определенному производителю контроллера. Некоторых это заставляет покупать по два контроллера и
>один класть в стол (что не помогает сохранению собственно BBU). И
>эти минусы могут перевесить плюсы даже не в low-end решениях. Хотя
>надо признать, что это достаточно распространенные и во многом понятные решения.

bbu без проблем мониторится(тот, кто не использует что-то вроде Nagios или Zabbix, и т д, имхо, сам себе клинический идиот) :) Кстати, уже есть контроллеры без BBU, но с флэш-памятью.
Я думала, тут вы запоете в очередной раз песню про чексуммы данных в zfs, и то, то hw-контроллеры не проверяют непосредственно данные, а только блоки данных в raid5/6, но, похоже, Вы про это не знали :)

Ответить | Правка | Наверх | Cообщить модератору

40. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от Anon Y Mous (?), 02-Май-10, 01:17 
> Я думала, тут вы запоете в очередной раз песню про чексуммы данных в zfs, и то, то hw-контроллеры не проверяют непосредственно данные, а только блоки данных в raid5/6, но, похоже, Вы про это не знали :)

С вами все ясно. Задуматься вы не задумались, а вместо этого начали скатываться в направлении "сам дурак", поэтому продолжать с вами дискуссию не вижу смысла

Ответить | Правка | Наверх | Cообщить модератору

41. "Facebook открыл модуль Flashcache для организации кэшировани..."  +/
Сообщение от sHaggY_caT (ok), 02-Май-10, 01:38 
>> Я думала, тут вы запоете в очередной раз песню про чексуммы данных в zfs, и то, то hw-контроллеры не проверяют непосредственно данные, а только блоки данных в raid5/6, но, похоже, Вы про это не знали :)
>
>С вами все ясно. Задуматься вы не задумались, а вместо этого начали
>скатываться в направлении "сам дурак", поэтому продолжать с вами дискуссию не
>вижу смысла

А задумывались ли Вы так ли хороша и универсальна zfs, как Вы пытаетесь показать всем в каждой теме(по-моему, большинство дисскуссий в которых Вы учавствуете, касаются ZFS)?

Погуглив по Вашим ответам заранее, мне было с самого начала понятно, что Вы работаете на публику. Если бы Вы погуглили по моим ответам на этом форуме, могли бы заметить, что с моей стороны всегда вызывает острое неприятие, и даже контр-агрессию желание собеседника навязать некую "супер-бупер" технологию(даже если я ее уже использую, и кому-то рекомендую) в качестве некоего универсального "филосовского камня", который решит все мои жизненные проблемы, и проблемы остальных собеседников :)
Во всех таких случаях я всегда показываю такому собеседнику на недостатки боготворимого им решения, и объясняю, почему "невероятные" фичи в его решении (те же чексуммы в zfs) очень часто совершенно бесполезны.

Извинте, но я не ждала от Вас самого начала конструктива :(

Вы не фанатик, как, например, iZen, видите сами недостатки, но увлеченный человек (как и я, впрочем): мы все тут немного красноглазые  :)

Я могу извиниться за резкость своих суждений, и переход на личности(в этом я точно была не права) но я не уверена, что Вы действительно можете рассказать что-то новое по сабжу, кроме того, что уже сто раз обмусолено.

Ответить | Правка | К родителю #40 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру