В состав Linuх-ядра 2.6.34 будет включена распределенная файловая система Ceph

19.03.2010 23:09 (MSK)

Линус Торвальдс утвердил включение в состав Linux-ядра 2.6.34 кода файловой системы Ceph, способной поддерживать работу хранилища объемом в несколько петабайт (1 Пб = 1024 Тб), распределенного по тысячам машин. В запросе на интеграцию Ceph в состав ядра сообщается, что последние несколько месяцев стабильность работы Ceph была существенно улучшена и компания Red Hat собирается включить поддержку работающей на уровне пользователя реализации Ceph в дистрибутив Fedora 13.

Встроенные в Ceph механизмы репликации данных (данные разбиваются на блоки и несколько раз дублируются на разных машинах) обеспечивают чрезвычайно высокую живучесть системы. При добавлении или удалении новых узлов, массив данных автоматически ребалансируется с учетом изменения конфигурации. В Ceph имеется поддержка снапшотов, причем снапшот может быть создан не только для ФC, но и для отдельных директорий.

В отличии от таких файловых систем, как GFS, OCFS2, и GPFS, в Ceph обработка данных и метаданных разделена на различные группы узлов в кластере, примерно как это сделано в Lustre, с тем различием, что обработка производится на уровне пользователя, не требуя какой-либо особой поддержки от ядра (для включения в 2.6.34 предложен код высокопроизводительного Ceph-клиента). Ceph может работать поверх блочных устройств, внутри одного файла или через размещение данных в существующих ФС (например, XFS).

Дополнение: сегодня на сайте Ceph анонсирован интересный новый проект RBD - драйвер блочных устройств для qemu/KVM, позволяющий организовать хранилище для виртуальной машины, работающее поверх распределенной инфраструктуры Ceph. Так как данные в Ceph реплицируются на несколько узлов RBD позволяет легко организовать процесс миграции виртуальной машины с одного узла на другой.

исправить +7 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/25879-ceph

Ключевые слова: ceph, fs, kernel

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (42)

1.5, psix (?), 01:21, 20/03/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А чем оно отличается от ZFS или RAID-Z что лучше использовать для построения распределенных отказоустойчивых хранилищ ?

2.6, pavlinux (ok), 01:23, 20/03/2010 [^] [^^] [^^^] [ответить]	+/–
Люстру.

3.9, минона (?), 02:10, 20/03/2010 [^] [^^] [^^^] [ответить]

–2 +/–

думаешь ceph не справиться?

зы:
там кстати по 2-ой ссылке и другая новость есть http://ceph.newdream.net/
>RBD: rados block driver
>Christian Brunner sent an initial implementation of ‘rbd’, a librados-based block driver for qemu/KVM, to the ceph-devel list last week. A few minor nits aside, it looks pretty good and works well. The basic idea is to stripe a VM block device over (by default) 4MB objects stored in the Ceph distributed object store. This gives you shared block storage to facilitate VM migration between hosts and fancy things like that.

и т.д. что тоже весьма интересно

4.12, _umka_ (??), 10:48, 20/03/2010 [^] [^^] [^^^] [ответить]	+/–
у ceph не было рековери как класс (во всяком случае еще год назад) - а значит данные которые были на клиенте в момент обрыва линка и не сохраненные на persistent storage - с большой веросятностью будут в /dev/null

5.16, минона (?), 13:47, 20/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
Ceph's main goals are to be POSIX-compatible, and completely distributed without a single point of failure. The data is seamlessly replicated making it fault tolerant

6.17, минона (?), 14:01, 20/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
Strong reliability and fast recovery — All data in Ceph is replicated across multiple OSDs. If any OSD fails, data is automatically re-replicated to other devices. However, unlike typical RAID systems, the replicas for data on each disk are spread out among a large number of other disks, and when a disk fails, the replacement replicas are also distributed across many disks. This allows recovery to proceed in parallel (with dozens of disks copying to dozens of other disks), removing the need for explicit “spare” disks (which are effectively wasted until they are needed) and preventing a single disk from becoming a “RAID rebuild” bottleneck.

7.20, _umka_ (??), 15:16, 20/03/2010 [^] [^^] [^^^] [ответить]

–1 +/–

и ?
не надо путать 2 режима - востановление после сбоя и умирания одного из osd девайсов, и востановление состояния после аварийного reboot. Приведу простейший пример

- raid обычном серваке. рейд может рассыпаться - и его можно востановить вызвав recovery - но при этом вы должны остановить все программы которые работают с raid и теряете то что наработали программы в кэшах.
и возможно вам прийдется запустить ext3/ext4 с abort journal что бы они чего не натворили. И вам нужен запуск fsck для проверки непротиворечивости метаданных на FS.

- обычный аварийный reboot - тогда файловая система с журналированием выполняет journal replay для обеспечения непротиворечивости мета-данных на FS.

Вот если мой склероз не изменяет - ceph работал именно как raid, а не как журналируемая FS.

а у люстры recovery это несколько другая вещь - апаратную целостность данных она не контролирует (для это есть апаратные возможности рейдов или DDN storages). Lustre recovery ближе к journal replay у журналируемых FS - когда по информации с клиентов востанавливается журнал не записаных на диск операций - и выполняется повторное выполнение их для обеспечения EOS (executed once semantic).

понятна разница ?

8.21, VBart (?), 16:17, 20/03/2010 [^] [^^] [^^^] [ответить]	+/–
Вы хотя бы читали то что вам процитировали Ceph это вам не raid и не journal fs... текст свёрнут, показать

9.28, _umka_ (??), 09:43, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
читал и смотрел ceph достаточно внимательно перечитайте раздел ceph recovery - ... текст свёрнут, показать

10.34, VBart (?), 20:08, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
одного из osd из строя выполнять rebuild аналогично как работает raid-5 горя... текст свёрнут, показать

11.36, _umka_ (??), 22:06, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
Резвирование репликацией не лучший вариант Всегда возможна ситуация когда выход... текст свёрнут, показать

12.39, pavel_simple (ok), 23:25, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
дружок ты откуда опять выплыл слез со стакана и давай всех уму разуму -- ну-н... текст свёрнут, показать

13.40, Andrey (??), 23:34, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
А он вас не оскорблял ... текст свёрнут, показать

14.42, минона (?), 00:00, 22/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
видимо вы из тех, кто едет молча в трамвае, пока хамы пристают к остальным ... текст свёрнут, показать

12.44, VBart (?), 01:06, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
Вы это гуглу расскажите 5 стораджей по 10P на дешевых компонентах будут стоить ... текст свёрнут, показать

13.46, _umka_ (??), 09:08, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
Вы считаете только стоимость комплектующих А теперь посчитайте сумарную стоимос... текст свёрнут, показать

14.52, VBart (?), 20:39, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
gt оверквотинг удален Не переживайте, мы все посчитали Вы считаете исходя из ... большой текст свёрнут, показать

12.45, VBart (?), 01:23, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
Для тех систем, для которых предназначена Ceph 1 Реплик для большей части данны... текст свёрнут, показать

13.47, _umka_ (??), 09:11, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
Сбои на свичах и фонящие кабеля у IB - я уже видел за время своей работы, и мног... текст свёрнут, показать

13.49, _umka_ (??), 09:20, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
PS 1к нод это очень мало - имеет смысл разговаривать о 10-50к нод - тогда и ста... текст свёрнут, показать

8.22, минона (?), 16:29, 20/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
это я то путаю D странный вы какой-то вот несколько пунктов для усваивания 1... текст свёрнут, показать

9.23, минона (?), 16:47, 20/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
зы на фоне вышесказанного lustre которую уже надо переименовать в что-то типа ... текст свёрнут, показать

9.29, _umka_ (??), 09:48, 21/03/2010 [^] [^^] [^^^] [ответить]	–1 +/–
путаешь иди читай книжки по ceph архитектуре и что как формат внутри одного ... текст свёрнут, показать

10.35, минона (?), 21:35, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
ты орал про клиента вот и получи ну и раз ты такой большой спец, то и о RADOS ... текст свёрнут, показать

11.37, _umka_ (??), 22:11, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
И что Кроме лозунгов процитировать алгоритм работы можешь Или слабо От идиот... текст свёрнут, показать

12.41, минона (?), 23:57, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
процитировать Да там в самой диссертации 239 страниц походу ты хвастался, что ... текст свёрнут, показать

13.48, _umka_ (??), 09:18, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
Выдели кусок который подтверждает твой тезис и процитируй и что вопрос реплика... текст свёрнут, показать

14.50, минона (?), 11:08, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
вот как удачно всё складывается, учитывая ваш полный провал в доказательстве сво... текст свёрнут, показать

4.18, pavlinux (ok), 14:39, 20/03/2010 [^] [^^] [^^^] [ответить]

+/–

>думаешь ceph не справиться?

Думается, если работа идёт в юзерспейсе, то выигрышь будет только
у распределённых приложений, и то, с точки зрения переноса вычислений на юзеров.
Так что, нужно считать суммарные ресурсы (GHz + RAM + MSS time ...+ Х.З.)/юзеров + сервера

>
>зы:
>там кстати по 2-ой ссылке и другая новость есть http://ceph.newdream.net/
>>RBD: rados block driver
>>Christian Brunner sent an initial implementation of ‘rbd’, a librados-based block driver for qemu/KVM, to the ceph-devel list last week. A few minor nits aside, it looks pretty good and works well. The basic idea is to stripe a VM block device over (by default) 4MB objects stored in the Ceph distributed object store. This gives you shared block storage to facilitate VM migration between hosts and fancy things like that.
>
>и т.д. что тоже весьма интересно

Я бы сказал, это даже более интересно...

5.19, минона (?), 15:00, 20/03/2010 [^] [^^] [^^^] [ответить]

–1 +/–

это до 34 ведра. в 33-е Торвальдс его не взял
но мне нравиться ещё и это:
>Internally, Btrfs bears some resemblance to Ebofs, the userland object file system developed for use in Ceph. However, Btrfs includes some critical features Ebofs does not (namely, copy-on-write semantics for file data), and is well maintained and tested. To avoid reinventing the wheel, Ceph will use btrfs on individual storage nodes (OSDs) to store object data, and we will focus on adding any additional functionality needed to btrfs where it will hopefully benefit non-Ceph users as well.

http://ceph.newdream.net/wiki/Btrfs
вполне возможно, что к промышленному применению они обе будут готовы почти одновременно.
>Я бы сказал, это даже более интересно...

безусловно практическое применение носит определяющий характер

6.25, anonymous (??), 20:21, 20/03/2010 [^] [^^] [^^^] [ответить]	+/–
У btrfs до сих пор нет банального fsck, если что то пойдет не так то только полное переформатирование, или недельные копания в исходниках и написание своих инструментов для лечения сбойных блоков и порушеной структуры. И тормозит она нещадно, причем мало что меняется за последние пол года. Нехорошие ощущения того что Oracle задумал недоброе.

7.26, минона (?), 21:38, 20/03/2010 [^] [^^] [^^^] [ответить]	+/–
как бы объяснить... это сейчас не гламурно. даже zfs поддалась этой пагубной привычке - http://opennet.ru/openforum/vsluhforumID3/60649.html или тут - http://hub.opensolaris.org/bin/view/Community+Group+zfs/faq#HWhydoesntZFShave зы: вот про астрал и секретные космические орбитальные отряды у вас не плохо получается. может не стоит менять профиль. а то если что случится, а у нас ни одного специалиста по пришельцам не останется. а про тормоза в бтре лучше у павлинуха спроси. мой лимит на разяснения кончился.

7.32, alexxy (?), 11:33, 21/03/2010 [^] [^^] [^^^] [ответить]

+/–

>У btrfs до сих пор нет банального fsck, если что то пойдет
>не так то только полное переформатирование, или недельные копания в исходниках
>и написание своих инструментов для лечения сбойных блоков и порушеной структуры.
>И тормозит она нещадно, причем мало что меняется за последние пол
>года. Нехорошие ощущения того что Oracle задумал недоброе.

Уверен что нет?
xeon ~ # qfile -v btrfsck
sys-fs/btrfs-progs-0.19 (/sbin/btrfsck)

так что не прав ты. =)

8.43, минона (?), 00:13, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
он действительно пока не полностью реализован последний коммит от 21 сентября -... текст свёрнут, показать

1.7, psix (?), 01:40, 20/03/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
а RAID-Z ?

2.30, alexxy (?), 11:28, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
А он утебя сетевой? Имхо нет. так что идет лесом. еще давай вспомним по вероятность вытаскивания данных с него в случае краха zfs (она примерно ноль :)

3.38, Anon Y Mous (?), 23:12, 21/03/2010 [^] [^^] [^^^] [ответить]

+/–

>А он утебя сетевой? Имхо нет. так что идет лесом. еще давай
>вспомним по вероятность вытаскивания данных с него в случае краха zfs
>(она примерно ноль :)

А мужики то не знают. И вполне себе вытаскивают. Примеры сам найдешь или привести?

4.51, аноним (?), 15:53, 22/03/2010 [^] [^^] [^^^] [ответить]	+/–
приведите, если под рукой

5.53, Anon Y Mous (?), 01:43, 23/03/2010 [^] [^^] [^^^] [ответить]	+/–
Погуглите по ключевым словам zfs pool recover rewind и их вариациям в домене opensolaris.org

1.27, aZ (ok), 02:47, 21/03/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Очередная сотая фс в линуксе стабильность которой оставляет желать лучшего.

2.31, alexxy (?), 11:29, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
>Очередная сотая фс в линуксе стабильность которой оставляет желать лучшего. И что ты этим хочешь сказать? Назови мне фс под ругие операционные системы обладающие такими же свойствами.

3.33, aZ (ok), 11:51, 21/03/2010 [^] [^^] [^^^] [ответить]	+/–
Всё что хотел - я уже сказал.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: