The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

01.09.2016 10:49  Facebook опубликовал реализацию алгоритма сжатия Zstandard 1.0

Facebook опубликовал первый стабильный релиз библиотеки и инструментария для работы с новым эффективным алгоритмом сжатия данных Zstandard, готовый для промышленного внедрения. Алгоритм подходит для организации сжатия в режиме реального времени и может рассматриваться как оптимальный компромисс, между быстрым но неэффективым lz4 и медленным но хорошо сжимающим xz. Zstandard, по сравнению с zlib/Deflate, демонстрирует в 3-5 раз более высокую скорость сжатия и в два раза более быструю распаковку, при уровне сжатия выше на 10-15%. Код написан на языке Си и распространяется под лицензией BSD. Алгоритм разработан Яном Колле (Yann Collet), автором эталонной реализации алгоритма LZ4, который ныне работает в Facebook.

В Zstandard задействован метод кодирования конечного состояния энтропии (Finite State Entropy), в котором для кодирования энтропии применяется теория асимметричных численных систем (Asymmetric Numeral Systems). Эффективность и скорость сжатия в Zstandard очень близка к предложенному Google алгоритму brotli, но Zstandard почти в три раза быстрее при распаковке. По скорости сжатия и распаковки Zstandard заметно отстаёт от Snappy (330 и 940 MB/s против 480 и 1600 MB/s), но опережает его по уровню сжатия почти на 30%.

Особенностью Zstandard является возможность тренировки для повышения эффективности сжатия мелких наборов данных. Алгоритм можно оптимизировать для определённого типа данных, сформировав словарь на основе предварительно предоставленных примеров. Словарь загружается до сжатия или распаковки и позволяет существенно повысить степень сжатия для типовых данных. Например, использование словаря, размером 64 Кб позволяет увеличить уровень сжатия с 2.8 до 6.9 при упаковке данных о 1000 пользователях GitHub (846 Кб со словарём сжимается в 122 Кб, а без в 300 Кб).

В отличие от zlib в Zstandard также предоставлены гибкие средства для использования доступных аппаратных возможностей - поддерживается распараллеливание операций на многоядерных CPU. Под окно сжатия можно выделить как несколько килобайт, так и несколько мегабайт памяти (в zlib используется 32 Кб), в зависимости от имеющихся ресурсов. Кроме того, Zstandard предоставляет более широкий диапазон для варьирования параметрами упаковки - на выбор предоставляется 22 уровня сжатия (1 - важна скорость, 22 - важен размер), позволяющих увеличить степень сжатия за счёт снижения скорости или, наоборот, повысить скорость ценой эффективности сжатия. В будущем число уровней сжатия планируется увеличить, также будут предоставлены типовые словари для увеличения эффективности сжатия JSON, HTML и типовых сетевых протоколов.



  1. Главная ссылка к новости (https://code.facebook.com/post...)
  2. OpenNews: Dropbox опубликовал реализацию алгоритма сжатия изображений Lepton
  3. OpenNews: Компания Apple открыла реализацию алгоритма сжатия без потерь LZFSE
  4. OpenNews: Автор LZ4 представил новый быстрый и эффективный алгоритм сжатия ZSTD
  5. OpenNews: Компания Google представила новый алгоритм сжатия данных Brotli
  6. OpenNews: Выпуск библиотеки сжатия LZHAM 1.0, нацеленной на создание более быстрой альтернативы LZMA
Лицензия: CC-BY
Тип: К сведению
Ключевые слова: zlib, zstandard
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Показать все | RSS
 
  • 1.1, Аноним, 11:42, 01/09/2016 [ответить] [смотреть все]     [к модератору]
  • +1 +/
    Кто-нибудь пояснит, при чём здесь Facebook До этого я думал, что автором Zstd я... весь текст скрыт [показать]
     
     
  • 2.2, Аноним, 11:46, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    Микрософт вон атом изобрёл, а пейспук — сабж. Всё ок.
     
     
  • 3.3, commiethebeastie, 11:50, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    Билл ГейТс изобрел интернеты.
     
     
  • 4.10, ано, 13:13, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +1 +/
    Ты лжешь! Интернеты изобрел Стиви Жопс из Эйпол
     
     
  • 5.32, Sluggard, 20:49, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Не-не-не. Они изобрели скруглённые углы.
     
     
  • 6.37, Аноним, 21:35, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Вы все не правы. Интернеты изобрели в ЦРУ.
     
     
  • 7.41, Yuris, 09:42, 02/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Вы нас плавно подводите к тому, что Фэйсбук проект ЦРУ? ;)
     
  • 6.51, Аноним, 16:39, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Вы будете ржать, но автор сабжа учился на маркетолога Но в какой-то момент реши... весь текст скрыт [показать]
     
     
  • 7.52, Sluggard, 16:45, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    Бывает, что такого И анестезиологи вон ядро пишут У меня приятель филолог писа... весь текст скрыт [показать]
     
  • 2.6, anonymous, 12:26, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    Автору хочется кушать, приходится работать на дядю
     
     
  • 3.8, Crazy Alex, 12:50, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +9 +/
    Ужас-то какой.

    Вообще-то работа на дядю в IT в большинстве случаев на порядок комфортнее и спокойнее работы на себя. И не факт, что в минус по деньгам. Работая на себя слишком много профессий совмещать приходится.

     
  • 3.30, Аноним, 20:34, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +1 +/
    А в чем работа на дядю состоит Чувак что так пилил свой алгоритм что эдак Дядя... весь текст скрыт [показать]
     
  • 2.11, Аноним, 13:33, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +1 +/
    Так он работает в Facebook
     
     
  • 3.39, Аноним, 02:56, 02/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Был в Оранжевом филиале французской компании.
    FB больше платит.
     
  • 2.12, Аноним84701, 13:45, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Поясняю автору не только новые алгоритмы изобретать, но иногда в процессе изобр... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.38, Аноним, 21:40, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Кушать, крыша и тёплая постелька несовместимы с понятиями Настоящей Свободы ... весь текст скрыт [показать]
     
  • 2.13, Andrey Mitrofanov, 14:04, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Ср 25 01 2015 09 47 Автор LZ4 представил новый быстрый и эффективный алгоритм... весь текст скрыт [показать] [показать ветку]
     
  • 2.21, ктонибудь, 17:33, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    объясняем мордокнижка платит афттару zstandard зарплату Чтобы он мог заниматьс... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.23, qwerty, 18:34, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    если данных терабайтами и при этом вариабельность 100k словаря за год 0 , то по... весь текст скрыт [показать]
     
     
  • 4.47, ., 14:42, 02/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    вы совсем читать не умеете Ну ладно первоисточник ниасилить это ж надо было ве... весь текст скрыт [показать]
     
  • 3.36, Аноним, 21:05, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +6 +/
    > Теперь прикинем, как это будет внутри какой-нибудь rasp pi, где нет branch
    > prediction (и любой branchless код просто длиннее и медленнее нормального), дорогая
    > 64битная арифметика, где нет лишних ядер, лишней памяти -

    Я сравнивал разные LZ-образные на одноядерном ARMv7. Это несколько отличается от x86.

    1) LZ4: по прежнему в лидерах скорости сжатия/распаковки. Может догнаться до скорости memcpy(), а на хорошо сжимаемых данных даже обогнать memcpy (вероятно, разгрузив read исходных данных из оперативы по сравнению с memcpy). Ratio как обычно скромный. А он сильно жать в принципе не может. Не для этого он.

    2) Zstd: в отличие от x86 где zstd заметно быстрее zlib, на ARM zstd примерно как zlib. Ну может капельку быстрее иногда. Но жмет все-равно значительно лучше zlib'а. Профит по любому.

    3) Brotli. Это уже тяжеловес. По скорости на ARM уже несколько сливает zlib. Но жмет кардинально плотнее и на верхних уровнях приближается к LZMA. Распаковываясь в ТРИ РАЗА быстрее чем LZMA на том же проце. Тоже вполне приятный tradeoff. Нагло жульничает на вебне используя встроенный словарь на добрых 120 кило.

     
     
  • 4.48, ., 15:05, 02/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    спасибо, это как раз то, чего не сделали авторы - что и вызывает у меня удивлени... весь текст скрыт [показать]
     
     
  • 5.53, Аноним, 17:11, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Больше похоже на то что они так просто не умеют ARM вообще забавные штуки Там ... весь текст скрыт [показать]
     
  • 3.46, arisu, 10:14, 02/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    нормально просто подобные штуки хоть и не принято сейчас называть 171 пресс ... весь текст скрыт [показать]
     
     
  • 4.54, Аноним, 17:26, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Автор zstd должен был стать маркетологом Но как-то случайно подсел на алгоритмы... весь текст скрыт [показать]
     
     
  • 5.55, arisu, 17:30, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    а я нигде не писал, что сабж плохой, если что я просто немного потоптался на фо... весь текст скрыт [показать]
     
     
  • 6.59, Аноним, 18:25, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Топтаться на презентации маркетолога занятие неблагодарное Маркетологи это умею... весь текст скрыт [показать]
     
  • 1.4, Сергей, 11:51, 01/09/2016 [ответить] [смотреть все]    [к модератору]  
  • +2 +/
    Читайте внимательней,  алгоритм и его реализация в виде кода...
     
     
  • 2.5, Аноним, 12:08, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Реализация в виде кода была сделана автором LZ4 и было выпущено много версий И ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.15, Andrey Mitrofanov, 14:34, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Эти гады ещё и перелицензировали код с-под GPLv2 на MIT Караул https gith... весь текст скрыт [показать]
     
     
  • 4.16, MMx, 15:53, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    А что это за КЛА?
    Что за контрибуции?
    Что за???
     
  • 4.17, MMx, 15:55, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Это какой-та не опенсорц
     
  • 4.27, Аноним, 20:27, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    А так можно? MIT вроде не допускает перелицензирование?
     
     
  • 5.31, Аноним, 20:38, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    В mit как и bsd - полтора условия Поверх которых можно нашлепнуть любые другие ... весь текст скрыт [показать]
     
  • 5.43, Andrey Mitrofanov, 09:48, 02/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    --Дядя Юра, Вы дурак ... весь текст скрыт [показать]
     
  • 4.50, lemon tree, 00:19, 03/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    Может, автор продал свои исходники Фейсбуку?
     
  • 1.7, mmm, 12:41, 01/09/2016 [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    А если туда ещё и lepton подмешать - на jpg-ах всех порвёт.
     
  • 1.9, Аноним, 13:10, 01/09/2016 [ответить] [смотреть все]     [к модератору]  
  • +/
    А почему никто не обращает внимание на фрактальное сжатие Патенты уже истекли ... весь текст скрыт [показать]
     
     
  • 2.18, Аноним, 16:06, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    две причины - оно сильно Ассиметрично распаковка - весьма шустра а сжатие в дес... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.33, Аноним, 20:50, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    Обычный Lempel-Ziv к этому вполне склонен и у того же Zstd есть высокие уровни с... весь текст скрыт [показать]
     
  • 1.14, Аноним, 14:32, 01/09/2016 [ответить] [смотреть все]    [к модератору]  
  • +1 +/
    > конечного состояния энтропии (Finite State Entropy)

    МГИМО финишд?

     
     
  • 2.28, Аноним, 20:32, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    >> конечного состояния энтропии (Finite State Entropy)
    > МГИМО финишд?

    Аск

     
  • 1.19, Аноним, 16:53, 01/09/2016 [ответить] [смотреть все]    [к модератору]  
  • +2 +/
    Пеговый Дудочник
     
     
  • 2.22, anonymous, 18:27, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +1 +/
    МПеговый дудочник
     
     
  • 3.25, Аноним, 19:25, 01/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • –1 +/
    Что ты несешь?
     
  • 3.34, Аноним., 20:54, 01/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • –1 +/
    MPEGLA овый Впрочем для MPEGLA тоже подарочек есть https aomedia googlesou... весь текст скрыт [показать]
     
     
  • 4.40, KBAKEP, 05:05, 02/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    Скорее уж H.265.
     
     
  • 5.44, Аноним, 09:52, 02/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    тогда уж AV1 и Daaala, Thor Theora-у ванильную - тоже вяло но ощутимо допилив... весь текст скрыт [показать]
     
     
  • 6.58, Аноним, 18:24, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    На VP8 почти забили Из него сильно больше уже не выжмешь VP9 достаточно активн... весь текст скрыт [показать]
     
  • 5.56, Аноним, 18:20, 03/09/2016 [^] [ответить] [смотреть все]     [к модератору]  
  • +/
    Наздоровье, гугл и ко задались целью его уделать И уже уделывают существующие р... весь текст скрыт [показать]
     
  • 1.26, Аноним, 20:24, 01/09/2016 [ответить] [смотреть все]     [к модератору]  
  • +/
    Использую в двух своих проектах При равной скорости векторные изображения жмет ... весь текст скрыт [показать]
     
     
  • 2.35, Аноним, 20:57, 01/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    Да почти все жмет лучше чем zlib Особенно если данных больше чем 32Кб Все-таки... весь текст скрыт [показать] [показать ветку]
     
  • 1.42, Аноним, 09:43, 02/09/2016 [ответить] [смотреть все]    [к модератору]  
  • +/
    А как это прикрутить к pifs?
     
  • 1.45, arisu, 10:10, 02/09/2016 [ответить] [смотреть все]    [к модератору]  
  • +2 +/
    словари рулят. берёшь, значит, весь исходный файл, и засовываешь его в словарь. БУМ! всех порвал, мегасжатие, скорость потрясающая, памяти почти не требует.

    вообще, многопроходное сжатие — скучное читерство.

     
     
  • 2.57, Аноним, 18:21, 03/09/2016 [^] [ответить] [смотреть все] [показать ветку]     [к модератору]  
  • +/
    А в каком месте optimal parsing например - читерство ... весь текст скрыт [показать] [показать ветку]
     
     
  • 3.60, arisu, 18:54, 03/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    >> вообще, многопроходное сжатие — скучное читерство.
    > А в каком месте optimal parsing например - читерство?

    именно в том. читерство и есть, к тому же ещё и тормозное.

     
  • 2.62, нах, 10:02, 05/09/2016 [^] [ответить] [смотреть все] [показать ветку]    [к модератору]  
  • +/
    > словари рулят. берёшь, значит, весь исходный файл, и засовываешь его в словарь

    если вы внимательно прочитали статью - там именно так и сделано (только не файл, а файлы)
    Сам словарь предусмотрительно вынесен в ../, поэтому к размеру сжатых данных не отнесен.
    То есть не как у гугля - потренировали на своих данных, и потом жмем любые похожие (и фейлимся на похожих, но недостаточно похожих), а именно словарь под эти конкретные.

    > вообще, многопроходное сжатие — скучное читерство.

    вообще - нет. Читерство начинается, когда размер такого словаря и время на его создание "как-то вот забыли учесть".

    Для данных которые "сжимаются один раз, распаковываются тыщу" нет ничего ужасного в том, что при сжатии тратится время на словарь. До тех пор, пока однопроходное сжатие не оказывается только на пару процентов хуже ;-)

    В общем, совершенно загадочно, зачем им это понадобилось - когда и честное сравнение в их пользу.

     
     
  • 3.63, arisu, 10:37, 05/09/2016 [^] [ответить] [смотреть все]    [к модератору]  
  • +/
    дык я не говорил, что оно всё плохо. я сказал, что оно скучное читерство. лично мне хватает zlib, который всё равно уже есть в любой системе, а нет — так разжиматель после deflate пишется в несколько килобайт. поэтому я интересуюсь остальным чисто с точки зрения: «а это интересно?» неа, неинтересно: и не ново, и не особо впечатляет, и к тому же для лучшего сжатия рекомендуют читерить. скука.

    p.s. zlib, кстати, тоже умеет в 'deflateSetDictionary()' и 'inflateSetDictionary()'.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor