forum.opennet.ru

"Facebook открыл реализацию алгоритма сжатия Zstandard"

Форум Разговоры, обсуждение новостей
Версия для распечатки	Пред. тема \| След. тема

Исходное сообщение

[ Отслеживать ]

Заметили полезную информацию ? Пожалуйста добавьте в FAQ на WIKI.

. "Facebook открыл реализацию алгоритма сжатия Zstandard"	+/–
Сообщение от Аноним (-), 03-Сен-16, 17:11
> спасибо, это как раз то, чего не сделали авторы - что и > вызывает у меня удивление. Скудоумием они явно не могли страдать, значит > - намеренная и осознаваемая подмена понятий. Больше похоже на то что они так просто не умеют. > Причем совсем непонятно, чего ради - на первый взгляд и честный анализ > должен был дать достаточно достойные результаты. ARM вообще забавные штуки. Там соотношения скорости проца vs скорость оперативы другие и в целом соотношения привычные на х86 могут ощутимо перекоситься. Хотя общая идея остается. Кроме того сильно роялит какие именно были данные. Некоторые виды данных сильно лучше сжимаются если сделать (обратимый) препроцессинг, а при распаковке - вернуть как было. Если грамотно выбрать тестовый набор данных - можно выпятить почти любой алгоритм и задвинуть остальных. Единственная проблема: в других случаях цифры могут быть гораздо менее красивые. Поэтому самый надежный способ - пустить ряд алгоритмов на своих данных и посмотреть что получится. Иногда бывает даже такой "парадокс" что gzip -3 может сжать и лучше и быстрее чем gzip -9. Это касается и многих других алгоритмов, хоть и по разным причинам. > каждый пятый файл вообще не cможет потом распаковать. Ну это врядли. Мордокнига думаю мощно потестирует в продакшне. Да и до этого алгоритм народ немало гонял. Это впрочем вообще не архиватор а библа сжатия. Поверх которой можно запилить в том числе и архиватор. >> проце. Тоже вполне приятный tradeoff. Нагло жульничает на вебне используя встроенный >> словарь на добрых 120 кило. > ну это не нагло. Нагло это в исходной статье - сперва пообучать алгоритм, потом > отложить словарик, потом _эти_же_ данные (не какие-то похожие, а именно те) сжать. Так гугл именно это и сделал: погонял brotli на своей выборке вебни. Сдампил наиболее удачный словарь. Вшил его прямо в библу (более +120 кил к весу либы). И теперь оно на вебне накручивает себе ratio только в путь. Точно так же его может накрутить и сабж, это ровно настолько же (не)честно. Проблема этого метода в том что если данные не похожи на то что в словаре, профита не наступает и цифры гораздо более скромные. > (причем оно таки делало zlib чуть ли не в восемь раз даже с учетом словаря, > совершенно неясно, зачем понадобилось такое мелкое жульничество. Это не столько жульничество, сколько showcase себя любимого с демонстрацией того что можно получить за пределами zlib. Ну да, автор маркетолог-недоучка, поэтому умеет себя показать с выгодной стороны :). Но в целом он предпринял усилия для оптимизации алгоритма и доведения до ума и в целом tradeoff удачный вышел. > Возможно, ларчик откроется, если засечь время обучения- Если делать как гугль и ко в brotli - это делается один раз за все время. А потом вгружаешь словарик - и (почти) вся вебня начинает жаться лучше. Прикол в том что по сути часть вебпаги заранее подгружается в виде словаря и поэтому достаточно передать куда более короткие референсы на словарь. Но если уж на то пошло - вебня вообще очень избыточная и скажем заменив теги более короткими представлениями можно нефигово выиграть. ЧСХ это не только работает но один кадр на этом чуть ли не докторскую сделал. Хорошо работает. Но вот только нужда сильно препроцессить и возвращать как было - требует времени. А словарь - относительно халявен, в том плане что по скорости не принципиально референсить ли просто прошлые данные или же заранее подпиханый словарь. Словарь - это такая оптимизация если характер данных известен. Если это не так то он лишь раздувает либу и ничего не привносит. По этой причине прошаренные compression contest меряют размер "код для распаковки + сжатые данные". Иначе кто-то снесет половину данных в код и выиграет, "распаковав". Ну это такой совсем частный случай словаря, одноразовый :) > специфическом словаре, упакованном вместе с данными, кто-то из ранних досовских > архиваторов именно так и работал...аццки долго ;) В общем случае внешний словарь имеет смысл только если есть достаточно большой набор однотипных данных, так что перенос некоторошо типового shared куска в либу или рядом себя окупит. Гугл ориентировался на вебню - ну и вынес в такой кусок типовые теги/слова/etc. Почему сабжу так должно юыть нельзя - хз :)
Ответить \| Правка \| Наверх \| Cообщить модератору

Оглавление

Facebook открыл реализацию алгоритма сжатия Zstandard, opennews, 01-Сен-16, 11:42 [смотреть все]

Кто-нибудь пояснит, при чём здесь Facebook До этого я думал, что автором Zstd я, Аноним, 01-Сен-16, 11:42 (1) //
- Микрософт вон атом изобрёл, а пейспук 8212 сабж Всё ок , Аноним, 01-Сен-16, 11:46 (2) //
  - Билл ГейТс изобрел интернеты , commiethebeastie, 01-Сен-16, 11:50 (3) //
    - Ты лжешь Интернеты изобрел Стиви Жопс из Эйпол, ано, 01-Сен-16, 13:13 (10)
      - Не-не-не Они изобрели скруглённые углы , Sluggard, 01-Сен-16, 20:49 (32)
        
        Вы все не правы Интернеты изобрели в ЦРУ , Аноним, 01-Сен-16, 21:35 (37)
        
        Вы нас плавно подводите к тому, что Фэйсбук проект ЦРУ , Yuris, 02-Сен-16, 09:42 (41)
        
        Вы будете ржать, но автор сабжа учился на маркетолога Но в какой-то момент реши, Аноним, 03-Сен-16, 16:39 (51)
        
        Бывает, что такого И анестезиологи вон ядро пишут У меня приятель филолог писа, Sluggard, 03-Сен-16, 16:45 (52)
- Автору хочется кушать, приходится работать на дядю, anonymous, 01-Сен-16, 12:26 (6) //
  - Ужас-то какой Вообще-то работа на дядю в IT в большинстве случаев на порядок ком, Crazy Alex, 01-Сен-16, 12:50 (8)
  - А в чем работа на дядю состоит Чувак что так пилил свой алгоритм что эдак Дядя, Аноним, 01-Сен-16, 20:34 (30)
- Так он работает в Facebook, Аноним, 01-Сен-16, 13:33 (11) //
  - Был в Оранжевом филиале французской компании FB больше платит , Аноним, 02-Сен-16, 02:56 (39)
- Поясняю автору не только новые алгоритмы изобретать, но иногда в процессе изобр, Аноним84701, 01-Сен-16, 13:45 (12) //
  - Кушать, крыша и тёплая постелька несовместимы с понятиями Настоящей Свободы , Аноним, 01-Сен-16, 21:40 (38)
- Ср 25 01 2015 09 47 Автор LZ4 представил новый быстрый и эффективный алгоритм , Andrey Mitrofanov, 01-Сен-16, 14:04 (13)
- объясняем мордокнижка платит афттару zstandard зарплату Чтобы он мог заниматьс, ктонибудь, 01-Сен-16, 17:33 (21) //
  - если данных терабайтами и при этом вариабельность 100k словаря за год 0 ,то поч, qwerty, 01-Сен-16, 18:34 (23) //
    - вы совсем читать не умеете Ну ладно первоисточник ниасилить это ж надо было ве, ., 02-Сен-16, 14:42 (47)
  - Я сравнивал разные LZ-образные на одноядерном ARMv7 Это несколько отличается от, Аноним, 01-Сен-16, 21:05 (36) //
    - спасибо, это как раз то, чего не сделали авторы - что и вызывает у меня удивлени, ., 02-Сен-16, 15:05 (48)
      - Больше похоже на то что они так просто не умеют ARM вообще забавные штуки Там с , Аноним, 03-Сен-16, 17:11 (53)
  - нормально просто подобные штуки хоть и не принято сейчас называть 171 пресс , arisu, 02-Сен-16, 10:14 (46) //
    - Автор zstd должен был стать маркетологом Но как-то случайно подсел на алгоритмы, Аноним, 03-Сен-16, 17:26 (54)
      - а я нигде не писал, что сабж плохой, если что я просто немного потоптался на фо, arisu, 03-Сен-16, 17:30 (55)
        
        Топтаться на презентации маркетолога занятие неблагодарное Маркетологи это умею, Аноним, 03-Сен-16, 18:25 (59)
Читайте внимательней, алгоритм и его реализация в виде кода , Сергей, 01-Сен-16, 11:51 (4) //
- Реализация в виде кода была сделана автором LZ4 и было выпущено много версий И , Аноним, 01-Сен-16, 12:08 (5) //
  - Эти гады ещё и перелицензировали код с-под GPLv2 на MIT Караул https githu, Andrey Mitrofanov, 01-Сен-16, 14:34 (15) //
    - А что это за КЛА Что за контрибуции Что за , MMx, 01-Сен-16, 15:53 (16)
    - Это какой-та не опенсорц, MMx, 01-Сен-16, 15:55 (17)
    - А так можно MIT вроде не допускает перелицензирование , Аноним, 01-Сен-16, 20:27 (27)
      - В mit как и bsd - полтора условия Поверх которых можно нашлепнуть любые другие , Аноним, 01-Сен-16, 20:38 (31)
      - --Дядя Юра, Вы дурак , Andrey Mitrofanov, 02-Сен-16, 09:48 (43)
    - Может, автор продал свои исходники Фейсбуку , lemon tree, 03-Сен-16, 00:19 (50)
А если туда ещё и lepton подмешать - на jpg-ах всех порвёт , mmm, 01-Сен-16, 12:41 (7)
А почему никто не обращает внимание на фрактальное сжатие Патенты уже истекли , Аноним, 01-Сен-16, 13:10 (9) //
- две причины - оно сильно Ассиметрично распаковка - весьма шустра а сжатие в дес, Аноним, 01-Сен-16, 16:06 (18) //
  - Обычный Lempel-Ziv к этому вполне склонен и у того же Zstd есть высокие уровни с, Аноним, 01-Сен-16, 20:50 (33)
МГИМО финишд , Аноним, 01-Сен-16, 14:32 (14) //
- Аск, Аноним, 01-Сен-16, 20:32 (28)
Пеговый Дудочник, Аноним, 01-Сен-16, 16:53 (19) //
- МПеговый дудочник, anonymous, 01-Сен-16, 18:27 (22) //
  - Что ты несешь , Аноним, 01-Сен-16, 19:25 (25)
  - MPEGLA овый Впрочем для MPEGLA тоже подарочек есть https aomedia googlesour, Аноним., 01-Сен-16, 20:54 (34) //
    - Скорее уж H 265 , KBAKEP, 02-Сен-16, 05:05 (40)
      - тогда уж AV1 и Daaala, Thor Theora-у ванильную - тоже вяло но ощутимо допилива, Аноним, 02-Сен-16, 09:52 (44)
        
        На VP8 почти забили Из него сильно больше уже не выжмешь VP9 достаточно активн, Аноним, 03-Сен-16, 18:24 (58)
      - Наздоровье, гугл и ко задались целью его уделать И уже уделывают существующие р, Аноним, 03-Сен-16, 18:20 (56)
Использую в двух своих проектах При равной скорости векторные изображения жмет , Аноним, 01-Сен-16, 20:24 (26) //
- Да почти все жмет лучше чем zlib Особенно если данных больше чем 32Кб Все-таки, Аноним, 01-Сен-16, 20:57 (35)
А как это прикрутить к pifs , Аноним, 02-Сен-16, 09:43 (42) //
- Месье долгожитель что пользуется pifs , Аноним, 03-Янв-19, 14:34 (64)
словари рулят берёшь, значит, весь исходный файл, и засовываешь его в словарь , arisu, 02-Сен-16, 10:10 (45) //
- А в каком месте optimal parsing например - читерство , Аноним, 03-Сен-16, 18:21 (57) //
  - именно в том читерство и есть, к тому же ещё и тормозное , arisu, 03-Сен-16, 18:54 (60)
- если вы внимательно прочитали статью - там именно так и сделано только не файл,, нах, 05-Сен-16, 10:02 (62) //
  - дык я не говорил, что оно всё плохо я сказал, что оно скучное читерство лично , arisu, 05-Сен-16, 10:37 (63)

Форумы | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру