The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Файловая система POHMELFS включена в '-staging' ветку Linux ядра, opennews (?), 16-Фев-09, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


20. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от _umka_ (ok), 16-Фев-09, 22:11 
>Самое забавное, что ФС на удивление неплоха :)

Из блога автора

$ time (find /mnt/testdir | wc -l )
3963

POHMELFS:   1m1.493s
     NFS:   0m2.521s

ну собственно проиграть на порядк NFS - это уже неплоха?

читаем дальше:
Local coherent cache for data and metadata. (Byte-range) locking. Locks were prepared to be byte-range, but since all Linux filesystems lock the whole inode, it was decided to lock the whole object during writing. Actual messages being sent for locking/cache coherency protocol are byte-range, but because the whole inode is locked, lock is cached, so range actually is equal to the inode size.
----
в вольном пересказе - один клиент открыл на запись, остальные отдыхают и ждут пока он закончит. Ну еще вопросы с таймаутами и тп.
На workload когда каждый клиент пишет в свой файл оно может и лучше - но объясните зачем там надо distributed FS ?

Ответить | Правка | Наверх | Cообщить модератору

21. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от pavlinuxemail (ok), 16-Фев-09, 23:02 
А round-robin прикрутить. Очереди, со своим гипервизором, уже им разруливать по блочным FS

Ответить | Правка | Наверх | Cообщить модератору

28. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от User294 (ok), 17-Фев-09, 09:29 
>А round-robin прикрутить. Очереди, со своим гипервизором, уже им разруливать по блочным
>FS

Где-то видимо урожай травы удался на славу =)

Ответить | Правка | Наверх | Cообщить модератору

23. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от Аноним (31), 17-Фев-09, 01:09 
>POHMELFS:   1m1.493s
>     NFS:   0m2.521s
>
>ну собственно проиграть на порядк NFS - это уже неплоха?

Ну да, а то, что он дальше пишет из-за чего это, и как все исправить, ты конечно опустил. Как и остальные тесты :) Объективно, что скажешь...

>читаем дальше:
>Local coherent cache for data and metadata. (Byte-range) locking. Locks were prepared
>to be byte-range, but since all Linux filesystems lock the whole
>inode, it was decided to lock the whole object during writing.
>Actual messages being sent for locking/cache coherency protocol are byte-range, but
>because the whole inode is locked, lock is cached, so range
>actually is equal to the inode size.
>----
>в вольном пересказе - один клиент открыл на запись, остальные отдыхают и
>ждут пока он закончит. Ну еще вопросы с таймаутами и тп.

Во-первых, так же происходит и при записи в обычный файл на локальной файловой системе. Во-вторых, там не лок берется, а делегируется право записи, как я понял, это как leases.

Ответить | Правка | К родителю #20 | Наверх | Cообщить модератору

34. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от _umka_ (ok), 17-Фев-09, 15:18 
>>POHMELFS:   1m1.493s
>>     NFS:   0m2.521s
>>
>>ну собственно проиграть на порядк NFS - это уже неплоха?
>
>Ну да, а то, что он дальше пишет из-за чего это, и
>как все исправить, ты конечно опустил. Как и остальные тесты :)
>Объективно, что скажешь...
>

Остальные тесты - для случая одного клиента. Что этим хотелось померять?
Нету не lock contention между клиентами, передачи данных между клиентами нету - не посмотриш как влияют эти факторы на работу клиентов и сети.
Только упоминается сделать бы тест когда 10 клиентов по очереди читают по 10 байт с разными смещением - но результатов этого не видно.
Просмотрел? тогда пожалуста ссылку на такой тест.
Вот все тесты:
    * metadata intensive load (tar, dbench with lots of threads)
    * POHMELFS, NFS and DST in iozone and bonnie++ benchmarks
    * the power of local metadata cache fun benchmark (take this dbench single-threaded test not too seriously)
    * old iozone tests
Все тесты выполняются с одного клиента - по сути никаких DLM конфликтов нету и все зависит от локальной VFS.

где тесты скорость передачи чтения/записи в зависимости от количества клиентов, количества сторадж серверов - нету или просмотрел? Отдельно для случаев когда идет паралельная запись на разные машины в массиве, и когда один дисковый массив. И рядом табличку с параметрами массива без учета pohmellfs - что бы можно было оценить влияние FS на производительность.
Где тот же racer на нескольких нодах?
И тп..

>[оверквотинг удален]
>>Actual messages being sent for locking/cache coherency protocol are byte-range, but
>>because the whole inode is locked, lock is cached, so range
>>actually is equal to the inode size.
>>----
>>в вольном пересказе - один клиент открыл на запись, остальные отдыхают и
>>ждут пока он закончит. Ну еще вопросы с таймаутами и тп.
>
>Во-первых, так же происходит и при записи в обычный файл на локальной
>файловой системе. Во-вторых, там не лок берется, а делегируется право записи,
>как я понял, это как leases.

Написано что это лок а не lease - только он выполняет роль глобального i_mutex, что хорошо только в случае когда у тебя только один клиент работает с файлом. Для всего остального есть варианты значительно лучше по производительности.


Ответить | Правка | Наверх | Cообщить модератору

35. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от _umka_ (ok), 17-Фев-09, 17:25 
>[оверквотинг удален]
>>
>>Ну да, а то, что он дальше пишет из-за чего это, и
>>как все исправить, ты конечно опустил. Как и остальные тесты :)
>>Объективно, что скажешь...
>>
>
>Остальные тесты - для случая одного клиента. Что этим хотелось померять?
>Нету не lock contention между клиентами, передачи данных между клиентами нету -
>не посмотриш как влияют эти факторы на работу клиентов и сети.
>

Кстати в догонку - интресный тест получается в таком workload.
N клиентов - по очереди открывают файл как open(O_RW|O_TRUNCATE) и пишут так что бы попало на несколько слайсов - посмотреть как себя будет вести в случае byte-range lock ping-pong и discard data.
Отоже самое - только open(O_APPEND).
ну и для комплекта MPI fsx test.

Автор покажет результаты таких тестов? и в сравнении с GFS, NFS, pNFS, Lustre.
я бы с удовольствием поглядел на результаты и обсудил их.

Ответить | Правка | Наверх | Cообщить модератору

39. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от Аноним (31), 17-Фев-09, 23:24 

>Остальные тесты - для случая одного клиента. Что этим хотелось померять?
>Нету не lock contention между клиентами, передачи данных между клиентами нету -
>не посмотриш как влияют эти факторы на работу клиентов и сети.

Смешно. А тот тест, который ты цитируешь - он какое-то отношение к этому имеет? :)

Автор не побоялся показать, где _сейчас_ его файловая система ведет себя плохо, как это объясняется, и как будет исправлено. А ты тут же прибежал с какой-то синтетикой.

>Только упоминается сделать бы тест когда 10 клиентов по очереди читают по
>10 байт с разными смещением - но результатов этого не видно.

Читатели параллельно обращаются к данным.

>[оверквотинг удален]
>Все тесты выполняются с одного клиента - по сути никаких DLM конфликтов
>нету и все зависит от локальной VFS.
>
>где тесты скорость передачи чтения/записи в зависимости от количества клиентов, количества сторадж
>серверов - нету или просмотрел? Отдельно для случаев когда идет паралельная
>запись на разные машины в массиве, и когда один дисковый массив.
>И рядом табличку с параметрами массива без учета pohmellfs - что
>бы можно было оценить влияние FS на производительность.
>Где тот же racer на нескольких нодах?
>И тп..

Снова очень смешно. Почитайте, как позиционирует автор POHMELFS, какие у нее возможности по работе с распределенными серверами и т.п. Сейчас это навороченный NFS с локальным кэшем, а все распределенные вычисления будут делаться сервером, который будет работать абсолютно по другой технологии по сравнению с традиционными системами типа lustre (с ее mds).

>>Во-первых, так же происходит и при записи в обычный файл на локальной
>>файловой системе. Во-вторых, там не лок берется, а делегируется право записи,
>>как я понял, это как leases.
>
>Написано что это лок а не lease - только он выполняет роль
>глобального i_mutex, что хорошо только в случае когда у тебя только
>один клиент работает с файлом. Для всего остального есть варианты значительно
>лучше по производительности.

Не знаю, почему он назвал его локом, наверное потому что нет известного словосочетания для read/write leases, которые соответстовали бы поведению.

Касательно глобального i_mutex - он же есть и в lustre, и dlm его никак не "улучшает" :)
Заодно можно погуглить на предмет статистики использования файлов в очень больших сетях и необходимости (оправданности) byte-range блокировок вместо всех этих синтетических тестов.

Ответить | Правка | К родителю #34 | Наверх | Cообщить модератору

43. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от _umka_ (ok), 19-Фев-09, 14:16 
>
>>Остальные тесты - для случая одного клиента. Что этим хотелось померять?
>>Нету не lock contention между клиентами, передачи данных между клиентами нету -
>>не посмотриш как влияют эти факторы на работу клиентов и сети.
>
>Смешно. А тот тест, который ты цитируешь - он какое-то отношение к
>этому имеет? :)

для partial page write - надо прочитать кусок страницы с другого клента который загрязнил страницу - модифицировать - отдать другому клиенту. Кроме того это позволяет оценить производительность операций с локами и network latency.
racer - просто оценка производительности metadata операций.


>
>Автор не побоялся показать, где _сейчас_ его файловая система ведет себя плохо,
>как это объясняется, и как будет исправлено. А ты тут же
>прибежал с какой-то синтетикой.

Это не синтетика - это требования по оптимизации предьявляемые cray/llnl/ornl.
Синтетика это tar -xf на одном клиенте.

>
>>Только упоминается сделать бы тест когда 10 клиентов по очереди читают по
>>10 байт с разными смещением - но результатов этого не видно.
>
>Читатели параллельно обращаются к данным.

Да? помоему тут чтение + запись + partical page write - интерсно поведение данной FS


>
>>[оверквотинг удален]
>
>Снова очень смешно. Почитайте, как позиционирует автор POHMELFS, какие у нее возможности
>по работе с распределенными серверами и т.п. Сейчас это навороченный NFS
>с локальным кэшем, а все распределенные вычисления будут делаться сервером, который
>будет работать абсолютно по другой технологии по сравнению с традиционными системами
>типа lustre (с ее mds).

Переведу в другие слова - меня интересует scalability в текущем варианте. Для метадата, для IO между клиентами, между клиентами и стораджами. Обсуждать scalability в случае одного клиента - когда не может возникнуть конфликт локов, как-то странно. Неправда ли?

>[оверквотинг удален]
>>Написано что это лок а не lease - только он выполняет роль
>>глобального i_mutex, что хорошо только в случае когда у тебя только
>>один клиент работает с файлом. Для всего остального есть варианты значительно
>>лучше по производительности.
>
>Не знаю, почему он назвал его локом, наверное потому что нет известного
>словосочетания для read/write leases, которые соответстовали бы поведению.
>
>Касательно глобального i_mutex - он же есть и в lustre, и dlm
>его никак не "улучшает" :)

в люстре нету глобального i_mutex, локи на данные - это byte-ranges. Иначе называемце extent lock. Поэтому 2 записи по разным смещениям в один файл на разных клиентах - будет спокойно выполнена. чтение + запись на непересекающися диапазоны.


>Заодно можно погуглить на предмет статистики использования файлов в очень больших сетях
>и необходимости (оправданности) byte-range блокировок вместо всех этих синтетических тестов.

измени - но смешно. byte-range и ldlm extent lock - это одно и тоже.

Ответить | Правка | Наверх | Cообщить модератору

44. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от Аноним (31), 20-Фев-09, 00:00 
>>Смешно. А тот тест, который ты цитируешь - он какое-то отношение к
>>этому имеет? :)
>
>для partial page write - надо прочитать кусок страницы с другого клента
>который загрязнил страницу - модифицировать - отдать другому клиенту. Кроме того
>это позволяет оценить производительность операций с локами и network latency.
>racer - просто оценка производительности metadata операций.

Ты процитировал тест с find /mnt там этого ничего нет. Чувствую, что ты не вникаешь в суть того, что тебе говорят.

>>Автор не побоялся показать, где _сейчас_ его файловая система ведет себя плохо,
>>как это объясняется, и как будет исправлено. А ты тут же
>>прибежал с какой-то синтетикой.
>
>Это не синтетика - это требования по оптимизации предьявляемые cray/llnl/ornl.
>Синтетика это tar -xf на одном клиенте.

:) вот ты смешной. Ну напиши автору, что ему нужно протестировать, чтобы тебе понравилось.
Автор утверждал, что метаданные ускоряются - утверждал. Доказал? Доказал.
А тут приходит умка и говорит, что ему это не интересно, а нужно что-то еще...

>>>Только упоминается сделать бы тест когда 10 клиентов по очереди читают по
>>>10 байт с разными смещением - но результатов этого не видно.
>>
>>Читатели параллельно обращаются к данным.
>
>Да? помоему тут чтение + запись + partical page write - интерсно
>поведение данной FS

Дядя, ты хотя бы _свой_ креатиф читай! Какой partial page write и запись? Видишь, что выше процитировано? "10 клиентов по очереди читают по 10 байт с разными смещением" - это твои слова.

>Переведу в другие слова - меня интересует scalability в текущем варианте. Для
>метадата, для IO между клиентами, между клиентами и стораджами. Обсуждать scalability
>в случае одного клиента - когда не может возникнуть конфликт локов,
>как-то странно. Неправда ли?

Ну так не обсуждай! Автор показал результаты своих тестов для определенных задач, для других задач не показал. Может быть там все плохо, а может хорошо, но умка сделал вывод даже не задумываясь :)

>>Касательно глобального i_mutex - он же есть и в lustre, и dlm
>>его никак не "улучшает" :)
>
>в люстре нету глобального i_mutex, локи на данные - это byte-ranges. Иначе
>называемце extent lock. Поэтому 2 записи по разным смещениям в один
>файл на разных клиентах - будет спокойно выполнена. чтение + запись
>на непересекающися диапазоны.

Lustre перестала пользоваться ext3? В ней отличный i_mutex, как и в линуксовом VFS вообще.

>>Заодно можно погуглить на предмет статистики использования файлов в очень больших сетях
>>и необходимости (оправданности) byte-range блокировок вместо всех этих синтетических тестов.
>
>измени - но смешно. byte-range и ldlm extent lock - это одно
>и тоже.

Чорд, весело :) Ты вообще читал, на что ответил? Или просто увидел пару знакомых слов и тут же написал свое мнение о них? Перечитай еще раз, что там написано, и подумай, к чему ты приплел то, что какие-то внутренние локи Lustre одинаковые? Ну как, получилось?

Я хоть похмелфс и не знаю в деталях, но по крайней мере стараюсь адекватно судить о том, что вижу, а не пытаюсь облить грязью то, в чем даже не пробовал разобраться. Отличные в Люстре разработчики, за светом глаз не видят вообще ничего.

Ответить | Правка | Наверх | Cообщить модератору

45. "Файловая система POHMELFS включена в '-staging' ветку Linux "  +/
Сообщение от _umka_ (ok), 20-Фев-09, 15:21 
>>>Смешно. А тот тест, который ты цитируешь - он какое-то отношение к
>>>этому имеет? :)
>>
>>для partial page write - надо прочитать кусок страницы с другого клента
>>который загрязнил страницу - модифицировать - отдать другому клиенту. Кроме того
>>это позволяет оценить производительность операций с локами и network latency.
>>racer - просто оценка производительности metadata операций.
>
>Ты процитировал тест с find /mnt там этого ничего нет. Чувствую, что
>ты не вникаешь в суть того, что тебе говорят.

не придумывай.


>[оверквотинг удален]
>>>Автор не побоялся показать, где _сейчас_ его файловая система ведет себя плохо,
>>>как это объясняется, и как будет исправлено. А ты тут же
>>>прибежал с какой-то синтетикой.
>>
>>Это не синтетика - это требования по оптимизации предьявляемые cray/llnl/ornl.
>>Синтетика это tar -xf на одном клиенте.
>
>:) вот ты смешной. Ну напиши автору, что ему нужно протестировать, чтобы
>тебе понравилось.
>Автор утверждал, что метаданные ускоряются - утверждал. Доказал? Доказал.

где доказал? Он продемонтрировал работу с одного клиента, который как выяснилось в случае readdir() + stat() проигрывает реализации операции readdir+ в NFS, я попросил показать случаи с кучей клиентов - посмотреть маштабирование. Маштабирование в зависимости от количества клиентов, в зависимости от offset в файле, количества локов на клиенте и тп.


>А тут приходит умка и говорит, что ему это не интересно, а
>нужно что-то еще...

У нас есть сетевая FS у которой заявлен паралельный доступ к файлам - помоему логично увидеть scalability этого решения. Или можно получить второй GPFS - с 16 клиентами уже начинаются тормоза.

>[оверквотинг удален]
>>>>10 байт с разными смещением - но результатов этого не видно.
>>>
>>>Читатели параллельно обращаются к данным.
>>
>>Да? помоему тут чтение + запись + partical page write - интерсно
>>поведение данной FS
>
>Дядя, ты хотя бы _свой_ креатиф читай! Какой partial page write и
>запись? Видишь, что выше процитировано? "10 клиентов по очереди читают по
>10 байт с разными смещением" - это твои слова.

Ок, признаю что изначально описал один тест, тут ошибся.
Я имел ввиду тест когда читают и пишут в режиме append по 10 байт на разных нодах.
Это тригерит partical page read/write, весьма частная ситуация - если write()/read() размеры и offset не выровнены по странице.

>
>>Переведу в другие слова - меня интересует scalability в текущем варианте. Для
>>метадата, для IO между клиентами, между клиентами и стораджами. Обсуждать scalability
>>в случае одного клиента - когда не может возникнуть конфликт локов,
>>как-то странно. Неправда ли?
>
>Ну так не обсуждай! Автор показал результаты своих тестов для определенных задач,
>для других задач не показал. Может быть там все плохо, а
>может хорошо, но умка сделал вывод даже не задумываясь :)

Я вобще попросил результаты тестов - что бы сделать решение.
Результаты lock/data ping pong, short read with partical page read/write и сказал что дальше можно обсуждать после того как увидим результаты.
Цитата нужна или найдешь по треду?

>[оверквотинг удален]
>>>Касательно глобального i_mutex - он же есть и в lustre, и dlm
>>>его никак не "улучшает" :)
>>
>>в люстре нету глобального i_mutex, локи на данные - это byte-ranges. Иначе
>>называемце extent lock. Поэтому 2 записи по разным смещениям в один
>>файл на разных клиентах - будет спокойно выполнена. чтение + запись
>>на непересекающися диапазоны.
>
>Lustre перестала пользоваться ext3? В ней отличный i_mutex, как и в линуксовом
>VFS вообще.

Откуда в lustre client ext3? его там не было никогда. Были патчи для сервера - поверх ext3. Которыми сейчас пользуется вся linux community - это называется ext4.
На клиенте все IO асинхронно - клиентский i_mutex не важен, для защиты данных вполне хватает byte-range lock (ldlm extent lock в терминах люстры).

>[оверквотинг удален]
>>>Заодно можно погуглить на предмет статистики использования файлов в очень больших сетях
>>>и необходимости (оправданности) byte-range блокировок вместо всех этих синтетических тестов.
>>
>>измени - но смешно. byte-range и ldlm extent lock - это одно
>>и тоже.
>
>Чорд, весело :) Ты вообще читал, на что ответил? Или просто увидел
>пару знакомых слов и тут же написал свое мнение о них?
>Перечитай еще раз, что там написано, и подумай, к чему ты
>приплел то, что какие-то внутренние локи Lustre одинаковые? Ну как, получилось?

Не придумывай. Я лиш написал что ldlm extent lock - это другое название byte-ranged lock.
ldlm extent lock - защищает byte range в файле, туже функцию в pohmelfs выполняет byte-rage lock. Так кто не читает что пишет?


>
>
>Я хоть похмелфс и не знаю в деталях, но по крайней мере
>стараюсь адекватно судить о том, что вижу, а не пытаюсь облить
>грязью то, в чем даже не пробовал разобраться. Отличные в Люстре
>разработчики, за светом глаз не видят вообще ничего.

Смешной ты ;) я лиш цитирую с сайта и спрашиваю, почему это считается что это быстро.
Спрашиваю как оно себя будет вести в разных ситуациях - мне говорят, что я обливаю грязью.
Неужели критика и указывание плохих мест - это уже обливание грязью?

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру