The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

01.09.2016 10:49  Facebook опубликовал реализацию алгоритма сжатия Zstandard 1.0

Facebook опубликовал первый стабильный релиз библиотеки и инструментария для работы с новым эффективным алгоритмом сжатия данных Zstandard, готовый для промышленного внедрения. Алгоритм подходит для организации сжатия в режиме реального времени и может рассматриваться как оптимальный компромисс, между быстрым но неэффективым lz4 и медленным но хорошо сжимающим xz. Zstandard, по сравнению с zlib/Deflate, демонстрирует в 3-5 раз более высокую скорость сжатия и в два раза более быструю распаковку, при уровне сжатия выше на 10-15%. Код написан на языке Си и распространяется под лицензией BSD. Алгоритм разработан Яном Колле (Yann Collet), автором эталонной реализации алгоритма LZ4, который ныне работает в Facebook.

В Zstandard задействован метод кодирования конечного состояния энтропии (Finite State Entropy), в котором для кодирования энтропии применяется теория асимметричных численных систем (Asymmetric Numeral Systems). Эффективность и скорость сжатия в Zstandard очень близка к предложенному Google алгоритму brotli, но Zstandard почти в три раза быстрее при распаковке. По скорости сжатия и распаковки Zstandard заметно отстаёт от Snappy (330 и 940 MB/s против 480 и 1600 MB/s), но опережает его по уровню сжатия почти на 30%.

Особенностью Zstandard является возможность тренировки для повышения эффективности сжатия мелких наборов данных. Алгоритм можно оптимизировать для определённого типа данных, сформировав словарь на основе предварительно предоставленных примеров. Словарь загружается до сжатия или распаковки и позволяет существенно повысить степень сжатия для типовых данных. Например, использование словаря, размером 64 Кб позволяет увеличить уровень сжатия с 2.8 до 6.9 при упаковке данных о 1000 пользователях GitHub (846 Кб со словарём сжимается в 122 Кб, а без в 300 Кб).

В отличие от zlib в Zstandard также предоставлены гибкие средства для использования доступных аппаратных возможностей - поддерживается распараллеливание операций на многоядерных CPU. Под окно сжатия можно выделить как несколько килобайт, так и несколько мегабайт памяти (в zlib используется 32 Кб), в зависимости от имеющихся ресурсов. Кроме того, Zstandard предоставляет более широкий диапазон для варьирования параметрами упаковки - на выбор предоставляется 22 уровня сжатия (1 - важна скорость, 22 - важен размер), позволяющих увеличить степень сжатия за счёт снижения скорости или, наоборот, повысить скорость ценой эффективности сжатия. В будущем число уровней сжатия планируется увеличить, также будут предоставлены типовые словари для увеличения эффективности сжатия JSON, HTML и типовых сетевых протоколов.



  1. Главная ссылка к новости (https://code.facebook.com/post...)
  2. OpenNews: Dropbox опубликовал реализацию алгоритма сжатия изображений Lepton
  3. OpenNews: Компания Apple открыла реализацию алгоритма сжатия без потерь LZFSE
  4. OpenNews: Автор LZ4 представил новый быстрый и эффективный алгоритм сжатия ZSTD
  5. OpenNews: Компания Google представила новый алгоритм сжатия данных Brotli
  6. OpenNews: Выпуск библиотеки сжатия LZHAM 1.0, нацеленной на создание более быстрой альтернативы LZMA
Лицензия: CC-BY
Тип: К сведению
Ключевые слова: zlib, zstandard
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, Аноним (-), 11:42, 01/09/2016 [ответить] [показать ветку] [···]     [к модератору]
  • +1 +/
    Кто-нибудь пояснит, при чём здесь Facebook До этого я думал, что автором Zstd я... весь текст скрыт [показать]
     
     
  • 2.2, Аноним (-), 11:46, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Микрософт вон атом изобрёл, а пейспук — сабж. Всё ок.
     
     
  • 3.3, commiethebeastie (ok), 11:50, 01/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    Билл ГейТс изобрел интернеты.
     
     
  • 4.10, ано (?), 13:13, 01/09/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Ты лжешь! Интернеты изобрел Стиви Жопс из Эйпол
     
     
  • 5.32, Sluggard (ok), 20:49, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Не-не-не. Они изобрели скруглённые углы.
     
     
  • 6.37, Аноним (-), 21:35, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Вы все не правы. Интернеты изобрели в ЦРУ.
     
     
  • 7.41, Yuris (??), 09:42, 02/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Вы нас плавно подводите к тому, что Фэйсбук проект ЦРУ? ;)
     
  • 6.51, Аноним (-), 16:39, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Вы будете ржать, но автор сабжа учился на маркетолога Но в какой-то момент реши... весь текст скрыт [показать]
     
     
  • 7.52, Sluggard (ok), 16:45, 03/09/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    Бывает, что такого И анестезиологи вон ядро пишут У меня приятель филолог писа... весь текст скрыт [показать]
     
  • 2.6, anonymous (??), 12:26, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Автору хочется кушать, приходится работать на дядю
     
     
  • 3.8, Crazy Alex (ok), 12:50, 01/09/2016 [^] [ответить]    [к модератору]  
  • +9 +/
    Ужас-то какой.

    Вообще-то работа на дядю в IT в большинстве случаев на порядок комфортнее и спокойнее работы на себя. И не факт, что в минус по деньгам. Работая на себя слишком много профессий совмещать приходится.

     
  • 3.30, Аноним (-), 20:34, 01/09/2016 [^] [ответить]     [к модератору]  
  • +1 +/
    А в чем работа на дядю состоит Чувак что так пилил свой алгоритм что эдак Дядя... весь текст скрыт [показать]
     
  • 2.11, Аноним (-), 13:33, 01/09/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    Так он работает в Facebook
     
     
  • 3.39, Аноним (-), 02:56, 02/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Был в Оранжевом филиале французской компании.
    FB больше платит.
     
  • 2.12, Аноним84701 (?), 13:45, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Поясняю автору не только новые алгоритмы изобретать, но иногда в процессе изобр... весь текст скрыт [показать]
     
     
  • 3.38, Аноним (-), 21:40, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Кушать, крыша и тёплая постелька несовместимы с понятиями Настоящей Свободы.

     
  • 2.13, Andrey Mitrofanov (?), 14:04, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Ср 25 01 2015 09 47 Автор LZ4 представил новый быстрый и эффективный алгоритм... весь текст скрыт [показать]
     
  • 2.21, ктонибудь (?), 17:33, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    объясняем мордокнижка платит афттару zstandard зарплату Чтобы он мог заниматьс... весь текст скрыт [показать]
     
     
  • 3.23, qwerty (??), 18:34, 01/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    >- изящно вынести специфический(!) словарь в ../

    если данных терабайтами и при этом вариабельность 100k словаря за год  0%,
    то почему бы и нет?

     
     
  • 4.47, . (?), 14:42, 02/09/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    вы совсем читать не умеете Ну ладно первоисточник ниасилить это ж надо было ве... весь текст скрыт [показать]
     
  • 3.36, Аноним (-), 21:05, 01/09/2016 [^] [ответить]    [к модератору]  
  • +6 +/
    > Теперь прикинем, как это будет внутри какой-нибудь rasp pi, где нет branch
    > prediction (и любой branchless код просто длиннее и медленнее нормального), дорогая
    > 64битная арифметика, где нет лишних ядер, лишней памяти -

    Я сравнивал разные LZ-образные на одноядерном ARMv7. Это несколько отличается от x86.

    1) LZ4: по прежнему в лидерах скорости сжатия/распаковки. Может догнаться до скорости memcpy(), а на хорошо сжимаемых данных даже обогнать memcpy (вероятно, разгрузив read исходных данных из оперативы по сравнению с memcpy). Ratio как обычно скромный. А он сильно жать в принципе не может. Не для этого он.

    2) Zstd: в отличие от x86 где zstd заметно быстрее zlib, на ARM zstd примерно как zlib. Ну может капельку быстрее иногда. Но жмет все-равно значительно лучше zlib'а. Профит по любому.

    3) Brotli. Это уже тяжеловес. По скорости на ARM уже несколько сливает zlib. Но жмет кардинально плотнее и на верхних уровнях приближается к LZMA. Распаковываясь в ТРИ РАЗА быстрее чем LZMA на том же проце. Тоже вполне приятный tradeoff. Нагло жульничает на вебне используя встроенный словарь на добрых 120 кило.

     
     
  • 4.48, . (?), 15:05, 02/09/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    спасибо, это как раз то, чего не сделали авторы - что и вызывает у меня удивлени... весь текст скрыт [показать]
     
     
  • 5.53, Аноним (-), 17:11, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Больше похоже на то что они так просто не умеют ARM вообще забавные штуки Там ... весь текст скрыт [показать]
     
  • 3.46, arisu (ok), 10:14, 02/09/2016 [^] [ответить]     [к модератору]  
  • +/
    нормально просто подобные штуки хоть и не принято сейчас называть 171 пресс ... весь текст скрыт [показать]
     
     
  • 4.54, Аноним (-), 17:26, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Автор zstd должен был стать маркетологом Но как-то случайно подсел на алгоритмы... весь текст скрыт [показать]
     
     
  • 5.55, arisu (ok), 17:30, 03/09/2016 [^] [ответить]    [к модератору]  
  • +/
    а я нигде не писал, что сабж плохой, если что. я просто немного потоптался на форме презентации.
     
     
  • 6.59, Аноним (-), 18:25, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Топтаться на презентации маркетолога занятие неблагодарное Маркетологи это умею... весь текст скрыт [показать]
     
  • 1.4, Сергей (??), 11:51, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Читайте внимательней,  алгоритм и его реализация в виде кода...
     
     
  • 2.5, Аноним (-), 12:08, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Реализация в виде кода была сделана автором LZ4 и было выпущено много версий. И только к последней версии под номером 1.0.0 примазался Facebook.
     
     
  • 3.15, Andrey Mitrofanov (?), 14:34, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Эти гады ещё и перелицензировали код с-под GPLv2 на MIT Караул https gith... весь текст скрыт [показать]
     
     
  • 4.16, MMx (?), 15:53, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    А что это за КЛА?
    Что за контрибуции?
    Что за???
     
  • 4.17, MMx (?), 15:55, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Это какой-та не опенсорц
     
  • 4.27, Аноним (-), 20:27, 01/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    А так можно? MIT вроде не допускает перелицензирование?
     
     
  • 5.31, Аноним (-), 20:38, 01/09/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    В mit как и bsd - полтора условия Поверх которых можно нашлепнуть любые другие ... весь текст скрыт [показать]
     
  • 5.43, Andrey Mitrofanov (?), 09:48, 02/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    > А так можно? MIT вроде не допускает перелицензирование?

    --Дядя Юра, Вы дурак?

     
  • 4.50, lemon tree (?), 00:19, 03/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    Может, автор продал свои исходники Фейсбуку?
     
  • 1.7, mmm (??), 12:41, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    А если туда ещё и lepton подмешать - на jpg-ах всех порвёт.
     
  • 1.9, Аноним (-), 13:10, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    А почему никто не обращает внимание на фрактальное сжатие? Патенты уже истекли.
     
     
  • 2.18, Аноним (-), 16:06, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    две причины - оно сильно Ассиметрично распаковка - весьма шустра а сжатие в дес... весь текст скрыт [показать]
     
     
  • 3.33, Аноним (-), 20:50, 01/09/2016 [^] [ответить]     [к модератору]  
  • –1 +/
    Обычный Lempel-Ziv к этому вполне склонен и у того же Zstd есть высокие уровни с... весь текст скрыт [показать]
     
  • 1.14, Аноним (-), 14:32, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    > конечного состояния энтропии (Finite State Entropy)

    МГИМО финишд?

     
     
  • 2.28, Аноним (-), 20:32, 01/09/2016 [^] [ответить]    [к модератору]  
  • +/
    >> конечного состояния энтропии (Finite State Entropy)
    > МГИМО финишд?

    Аск

     
  • 1.19, Аноним (-), 16:53, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Пеговый Дудочник
     
     
  • 2.22, anonymous (??), 18:27, 01/09/2016 [^] [ответить]    [к модератору]  
  • +1 +/
    МПеговый дудочник
     
     
  • 3.25, Аноним (-), 19:25, 01/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    Что ты несешь?
     
  • 3.34, Аноним. (?), 20:54, 01/09/2016 [^] [ответить]    [к модератору]  
  • –1 +/
    > МПеговый дудочник

    MPEGLA'овый :)

    Впрочем для MPEGLA тоже подарочек есть: https://aomedia.googlesource.com/aom - эта крутень дает довольно приличную картинку 1080P даже при ... 500 Кбит?! Вау. Эй, H.264 а попробуй так же? И чтоб не превратиться в блочную муть? :)

     
     
  • 4.40, KBAKEP (ok), 05:05, 02/09/2016 [^] [ответить]    [к модератору]  
  • +/
    Скорее уж H.265.
     
     
  • 5.44, Аноним (-), 09:52, 02/09/2016 [^] [ответить]    [к модератору]  
  • +/
    тогда уж AV1 и Daaala, Thor ;)
    Theora-у ванильную - тоже вяло(но ощутимо)допиливают да и VP8, VP9 для "внутреннего использования" гугль юзает вовсю )
     
     
  • 6.58, Аноним (-), 18:24, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    На VP8 почти забили Из него сильно больше уже не выжмешь VP9 достаточно активн... весь текст скрыт [показать]
     
  • 5.56, Аноним (-), 18:20, 03/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Наздоровье, гугл и ко задались целью его уделать И уже уделывают существующие р... весь текст скрыт [показать]
     
  • 1.26, Аноним (-), 20:24, 01/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Использую в двух своих проектах. При равной скорости векторные изображения жмет на 40% сильнее zlib.
     
     
  • 2.35, Аноним (-), 20:57, 01/09/2016 [^] [ответить]     [к модератору]  
  • +/
    Да почти все жмет лучше чем zlib Особенно если данных больше чем 32Кб Все-таки... весь текст скрыт [показать]
     
  • 1.42, Аноним (-), 09:43, 02/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    А как это прикрутить к pifs?
     
  • 1.45, arisu (ok), 10:10, 02/09/2016 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    словари рулят. берёшь, значит, весь исходный файл, и засовываешь его в словарь. БУМ! всех порвал, мегасжатие, скорость потрясающая, памяти почти не требует.

    вообще, многопроходное сжатие — скучное читерство.

     
     
  • 2.57, Аноним (-), 18:21, 03/09/2016 [^] [ответить]    [к модератору]  
  • +/
    > вообще, многопроходное сжатие — скучное читерство.

    А в каком месте optimal parsing например - читерство?

     
     
  • 3.60, arisu (ok), 18:54, 03/09/2016 [^] [ответить]    [к модератору]  
  • +/
    >> вообще, многопроходное сжатие — скучное читерство.
    > А в каком месте optimal parsing например - читерство?

    именно в том. читерство и есть, к тому же ещё и тормозное.

     
  • 2.62, нах (?), 10:02, 05/09/2016 [^] [ответить]    [к модератору]  
  • +/
    > словари рулят. берёшь, значит, весь исходный файл, и засовываешь его в словарь

    если вы внимательно прочитали статью - там именно так и сделано (только не файл, а файлы)
    Сам словарь предусмотрительно вынесен в ../, поэтому к размеру сжатых данных не отнесен.
    То есть не как у гугля - потренировали на своих данных, и потом жмем любые похожие (и фейлимся на похожих, но недостаточно похожих), а именно словарь под эти конкретные.

    > вообще, многопроходное сжатие — скучное читерство.

    вообще - нет. Читерство начинается, когда размер такого словаря и время на его создание "как-то вот забыли учесть".

    Для данных которые "сжимаются один раз, распаковываются тыщу" нет ничего ужасного в том, что при сжатии тратится время на словарь. До тех пор, пока однопроходное сжатие не оказывается только на пару процентов хуже ;-)

    В общем, совершенно загадочно, зачем им это понадобилось - когда и честное сравнение в их пользу.

     
     
  • 3.63, arisu (ok), 10:37, 05/09/2016 [^] [ответить]    [к модератору]  
  • +/
    дык я не говорил, что оно всё плохо. я сказал, что оно скучное читерство. лично мне хватает zlib, который всё равно уже есть в любой системе, а нет — так разжиматель после deflate пишется в несколько килобайт. поэтому я интересуюсь остальным чисто с точки зрения: «а это интересно?» неа, неинтересно: и не ново, и не особо впечатляет, и к тому же для лучшего сжатия рекомендуют читерить. скука.

    p.s. zlib, кстати, тоже умеет в 'deflateSetDictionary()' и 'inflateSetDictionary()'.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor