forum.opennet.ru

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Режим отображения отдельной подветви беседы		[ Отслеживать ]

Оглавление

Первый выпуск инструмента llamafile от Mozilla, opennews (??), 30-Ноя-23, (0) [смотреть все]

Чем бы Mozilla не тешилась, лиш бы браузер не пилила , Аноним (1), 16:54 , 30-Ноя-23, (1) +18 //

Так это попытка в диверсификацию На браузере на разработку не заработаешь - юзе, Анонин (?), 17:27 , 30-Ноя-23, (3) –1 //

Можно сказать, в diversity Дармоедов альтернативных местоимений и одарённостей , Аноним (16), 20:02 , 30-Ноя-23, (16) –1 //

А причем тут гос регулятор это альтернативно одаренные активисты за это, сейч, Гость (??), 21:26 , 30-Ноя-23, (19)

Притом, что если держат чела в штате, который ничего не делает, то налоговая не , Аноним (22), 22:21 , 30-Ноя-23, (22)

С третьего коммента озабоченные пошли И ведь ничто не предвещало, просто слово , Аноним (27), 01:22 , 01-Дек-23, (27)

А теперь вспомним недавний пост в блоге Мозиллы в котором они объявили AI своим , Kuromi (ok), 17:32 , 30-Ноя-23, (4) +1
Это хорошо 2023 https opennet ru 58845-mozilla 2022 https opennet ru 58038-m, Аноним (5), 17:33 , 30-Ноя-23, (5) +2
Мозилла обязана исключительно браузером заниматься Именно анониму обязана , Аноним (27), 17:45 , 30-Ноя-23, (6) +1

Так вот чей зад надирал Winamp , InuYasha (??), 17:26 , 30-Ноя-23, (2) +1 //

Олдфаги в треде 9583 9633 9583 , Аноним (11), 19:26 , 30-Ноя-23, (11)

Разработчик gguf и llama cpp, кстати, русский, RarogCmex2 (?), 18:08 , 30-Ноя-23, (7) –5 //

Наши опять вперди планеты всей, Ангним (?), 18:39 , 30-Ноя-23, (8) +1
Это он тебе сказал или сам выдумал , Анон из села Кукуево (?), 19:06 , 30-Ноя-23, (9) +2
А не Болгарин , x0r (??), 19:10 , 30-Ноя-23, (10) +1
Скрыто модератором, Аноним (-), 21:56 , 30-Ноя-23, (20)
Как определили По гаплогруппе, родному языку, вторичным признакам, архивным дан, Аноним (31), 09:40 , 01-Дек-23, (31) //

Силой почувствовал, Аноним (38), 20:35 , 01-Дек-23, (38)

Напоминаю единственным актуальным форматом моделей является ONNX SafeTensors -, Аноним (17), 20:05 , 30-Ноя-23, (17) –2 //

ONNX рантайм достаточно жирный, и не имеет особого смысла для моделей вроде llam, morphe (?), 23:27 , 30-Ноя-23, (24) //

Это Micro oft виновата - все либы слинкованы статически, включая протобуф И пер, Аноним (34), 11:55 , 01-Дек-23, (34) //

А я не в этом смысле жирный говорю В ONNX есть огромная библиотека функций, все, morphe (?), 12:45 , 01-Дек-23, (35)

Не факт, что один человек может руками оптимизировать модель лучше, чем автомати, Аноним (36), 16:13 , 01-Дек-23, (36)

Как только модель готова - оптимизированная версия пишется достаточно простоОчен, morphe (?), 22:48 , 01-Дек-23, (39)

Эк питоняш штырит то А таки это LLMное добро довольно популярно стало - на волн, Аноним (-), 00:37 , 01-Дек-23, (26) //

Да были конверторы на гитхабе , Аноним (36), 16:14 , 01-Дек-23, (37)

GGUFгуф умер, прекратите откапывать стюардессу , Аноним (23), 22:55 , 30-Ноя-23, (23)
Это точно мозилла и я не сплю У них еще есть нормальные кодеры А, наверное все , Аноним (-), 00:34 , 01-Дек-23, (25) //

Погляди историю коммитов, лол llamafile пилит Justine ex-Justin Tunney 8212 , Аноним (28), 04:11 , 01-Дек-23, (28) +1
Они там и есть Остальные либо пузырь надувают, либо троянством занимаются , Аноним (31), 09:41 , 01-Дек-23, (32)

Даже создатели Rust его не продвигают , Аноним (29), 06:48 , 01-Дек-23, (29) +1 //

Всё поняли и задвинули обратно , Аноним (30), 08:48 , 01-Дек-23, (30)
А он типа Windows - экспортный товар А для себя - самое лучшее , Аноним (31), 09:42 , 01-Дек-23, (33)

Скрыто модератором, Аноним (-), 23:58 , 01-Дек-23, (40)

Сообщения [Сортировка по времени | RSS]

17. "Первый выпуск инструмента llamafile от Mozilla" –2 +/–

Сообщение от Аноним (17), 30-Ноя-23, 20:05

>в формате GGUF
Напоминаю: единственным актуальным форматом моделей является ONNX. SafeTensors - это не формат моделей, это формат сериализации, сделанный из NIH-синдрома (numpy.npy в zip-архиве с нулевым сжатием и выравниванием (zipalign) был бы намного лучше).

Ответить | Правка | Наверх | Cообщить модератору

24. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от morphe (?), 30-Ноя-23, 23:27

> ONNX
ONNX рантайм достаточно жирный, и не имеет особого смысла для моделей вроде llama, для которых инференс можно написать на коленке без особых просадок по производительности.
Его преимущество в возможности компилироваться под произвольные архитектуры и ускорители, но если задача поддерживать лишь пару архитектур - то его JIT компиляция становится лишь минусом.

Ответить | Правка | Наверх | Cообщить модератору

34. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от Аноним (34), 01-Дек-23, 11:55

>ONNX рантайм достаточно жирный
Это Micro$oft виновата - все либы слинкованы статически, включая протобуф. И перекомпилированны. Гугл покусал. Не смотря на то, что для сборки используется CMake, подход к зависимостям - как в Базеле. Если делать всё по уму, большая часть либ будет переиспользована системная. При этом onnxruntime умеет и в GPU, и в оптимизации, причём обгоняет хвалёный Apache TVM, который оптимизирует и компилирует ONNX-модели в Vulkan, OpenCL или оптимизированный машинный код для CPU, по производительности (да, onnxruntime на CPU обгоняет TVM на Vulkan). Формат ONNX позволяет лёгкую интеграцию моделей в свои программы, так как файл модели есть законченная программа, а не набор тензоров, который надо обвесить своим кодом. Также формат ONNX позволяет делать на моделях хирургию: я так резал одну модель (mobile-ViT от Apple) посередине с целью извлечения векторного представления.
>Его преимущество в возможности компилироваться под произвольные архитектуры и ускорители, но если задача поддерживать лишь пару архитектур - то его JIT компиляция становится лишь минусом.
Ну возможность инферить на GPU - это жирный плюс. Возможность легко интегрировать в свои программы на любом ЯП - это жирный плюс.

Ответить | Правка | Наверх | Cообщить модератору

35. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от morphe (?), 01-Дек-23, 12:45

> Это Micro$oft виновата - все либы слинкованы статически
А я не в этом смысле жирный говорю. В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего.
> Ну возможность инферить на GPU - это жирный плюс
Не везде это полезно, многие модели не влезут в consumer-grade GPU, а для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU->GPU занимает больше времени чем сам инференс.
> Возможность легко интегрировать в свои программы на любом ЯП - это жирный плюс.
Ровно как и FFI. ONNX позволяет быстрее довести модель от прототипа до прода, но не всегда эффективнее. Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса.

Ответить | Правка | Наверх | Cообщить модератору

36. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от Аноним (36), 01-Дек-23, 16:13

>Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса.
Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации.
>В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего.
Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно.
>для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU->GPU занимает больше времени чем сам инференс.
Это явно не случай LLM. llama.cpp взлетела именно потому, что это маленькая программа, которая игрушка, которая сравнительно независима от железа, которая заведётся везде, где есть C++ и AVX/NEON. Но у меня инференс на CPU даже минимальной модели alpaca очень тормозит. Для трансформеров инференс на GPU должен дать значительное преимущество.

Ответить | Правка | Наверх | Cообщить модератору

39. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от morphe (?), 01-Дек-23, 22:48

> Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации.
Как только модель готова - оптимизированная версия пишется достаточно просто
> Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно.
Очень редко на конечном компьютере из ONNX исполняется всё, обычно как раз используется с десяток функций из тысячи имеющихся)
> Это явно не случай LLM
Именно. Потому что LLM не остальные модели, LLM именно что тяжело вместить в память consumer-grade GPU.
Для подобных вещей однако можно вынести на GPU лишь часть вычислений, например с BLAS/compute шейдером, и по скорости получится как раз бесплатный ChatGPT.
ONNX однако не очень способен исполнять модель гибридно.

Ответить | Правка | Наверх | Cообщить модератору

26. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от Аноним (-), 01-Дек-23, 00:37

> Напоминаю: единственным актуальным форматом моделей является ONNX.
> SafeTensors - это не формат моделей, это формат сериализации, сделанный
> из NIH-синдрома (numpy.npy в zip-архиве с нулевым сжатием и выравниванием (zipalign)
> был бы намного лучше).
Эк питоняш штырит то. А таки это LLMное добро довольно популярно стало - на волне чатгопоты. И моделей в вон тех форматах - есть. А ONNX там никому и не уперся походу.

Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

37. "Первый выпуск инструмента llamafile от Mozilla" +/–

Сообщение от Аноним (36), 01-Дек-23, 16:14

Да были конверторы на гитхабе.

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

17. "Первый выпуск инструмента llamafile от Mozilla"	–2 +/–
Сообщение от Аноним (17), 30-Ноя-23, 20:05
>в формате GGUF Напоминаю: единственным актуальным форматом моделей является ONNX. SafeTensors - это не формат моделей, это формат сериализации, сделанный из NIH-синдрома (numpy.npy в zip-архиве с нулевым сжатием и выравниванием (zipalign) был бы намного лучше).
Ответить \| Правка \| Наверх \| Cообщить модератору


	24. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от morphe (?), 30-Ноя-23, 23:27
	> ONNX ONNX рантайм достаточно жирный, и не имеет особого смысла для моделей вроде llama, для которых инференс можно написать на коленке без особых просадок по производительности. Его преимущество в возможности компилироваться под произвольные архитектуры и ускорители, но если задача поддерживать лишь пару архитектур - то его JIT компиляция становится лишь минусом.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	34. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от Аноним (34), 01-Дек-23, 11:55
	>ONNX рантайм достаточно жирный Это Micro$oft виновата - все либы слинкованы статически, включая протобуф. И перекомпилированны. Гугл покусал. Не смотря на то, что для сборки используется CMake, подход к зависимостям - как в Базеле. Если делать всё по уму, большая часть либ будет переиспользована системная. При этом onnxruntime умеет и в GPU, и в оптимизации, причём обгоняет хвалёный Apache TVM, который оптимизирует и компилирует ONNX-модели в Vulkan, OpenCL или оптимизированный машинный код для CPU, по производительности (да, onnxruntime на CPU обгоняет TVM на Vulkan). Формат ONNX позволяет лёгкую интеграцию моделей в свои программы, так как файл модели есть законченная программа, а не набор тензоров, который надо обвесить своим кодом. Также формат ONNX позволяет делать на моделях хирургию: я так резал одну модель (mobile-ViT от Apple) посередине с целью извлечения векторного представления. >Его преимущество в возможности компилироваться под произвольные архитектуры и ускорители, но если задача поддерживать лишь пару архитектур - то его JIT компиляция становится лишь минусом. Ну возможность инферить на GPU - это жирный плюс. Возможность легко интегрировать в свои программы на любом ЯП - это жирный плюс.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	35. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от morphe (?), 01-Дек-23, 12:45
	> Это Micro$oft виновата - все либы слинкованы статически А я не в этом смысле жирный говорю. В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего. > Ну возможность инферить на GPU - это жирный плюс Не везде это полезно, многие модели не влезут в consumer-grade GPU, а для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU->GPU занимает больше времени чем сам инференс. > Возможность легко интегрировать в свои программы на любом ЯП - это жирный плюс. Ровно как и FFI. ONNX позволяет быстрее довести модель от прототипа до прода, но не всегда эффективнее. Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	36. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от Аноним (36), 01-Дек-23, 16:13
	>Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса. Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации. >В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего. Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно. >для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU->GPU занимает больше времени чем сам инференс. Это явно не случай LLM. llama.cpp взлетела именно потому, что это маленькая программа, которая игрушка, которая сравнительно независима от железа, которая заведётся везде, где есть C++ и AVX/NEON. Но у меня инференс на CPU даже минимальной модели alpaca очень тормозит. Для трансформеров инференс на GPU должен дать значительное преимущество.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	39. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от morphe (?), 01-Дек-23, 22:48
	> Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации. Как только модель готова - оптимизированная версия пишется достаточно просто > Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно. Очень редко на конечном компьютере из ONNX исполняется всё, обычно как раз используется с десяток функций из тысячи имеющихся) > Это явно не случай LLM Именно. Потому что LLM не остальные модели, LLM именно что тяжело вместить в память consumer-grade GPU. Для подобных вещей однако можно вынести на GPU лишь часть вычислений, например с BLAS/compute шейдером, и по скорости получится как раз бесплатный ChatGPT. ONNX однако не очень способен исполнять модель гибридно.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	26. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от Аноним (-), 01-Дек-23, 00:37
	> Напоминаю: единственным актуальным форматом моделей является ONNX. > SafeTensors - это не формат моделей, это формат сериализации, сделанный > из NIH-синдрома (numpy.npy в zip-архиве с нулевым сжатием и выравниванием (zipalign) > был бы намного лучше). Эк питоняш штырит то. А таки это LLMное добро довольно популярно стало - на волне чатгопоты. И моделей в вон тех форматах - есть. А ONNX там никому и не уперся походу.
	Ответить \| Правка \| К родителю #17 \| Наверх \| Cообщить модератору


	37. "Первый выпуск инструмента llamafile от Mozilla"	+/–
	Сообщение от Аноним (36), 01-Дек-23, 16:14
	Да были конверторы на гитхабе.
	Ответить \| Правка \| Наверх \| Cообщить модератору