The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Проект Minotaur развивает оптимизатор векторных инструкций для LLVM , opennews (??), 16-Июл-23, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


7. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  –1 +/
Сообщение от Аноним (7), 16-Июл-23, 11:33 
Может троттлинг и не точное определение, но то, что ядра снижают частоту при использовании AVX-* - факт.
Ответить | Правка | Наверх | Cообщить модератору

15. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 12:33 
Это то же самое и по той же причине. Своеобразный преемптивный троттлинг, avx легко отобрали пальму первенства по нагреву у sse и fpu. Особенно заметно, когда СО в итоге всё же не справляется и легко падает в полноценный троттлинг. Для примера, компиляция вебкита (и хромиума соотвественно) -- единственный процесс из всех пакетов, который выкидывал мой пк в защиту от перегрева (температура на ~20 градусов выше обычной максимальной).
Ответить | Правка | Наверх | Cообщить модератору

16. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (2), 16-Июл-23, 12:37 
То, что это в принципе самый долгособираемый пакет, вопрос отдельный, троттлить начинало довольно быстро и соответственно всё растягивалось на долго.
Ответить | Правка | Наверх | Cообщить модератору

41. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Аноним (41), 16-Июл-23, 15:48 
Пользуйтесь процессорами AMD, у них частоты одинаковые при любых инструкциях.
Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору

42. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  –1 +/
Сообщение от Аноним (2), 16-Июл-23, 15:54 
А как же быть с тем, что процессоры АМД не показывают реальную температуру на датчиках? Из-за того, что они склеены из различной отбраковки, результаты могут довольно разниться. У них намного жёстче ограничения по рабочим температурам, как из-за материала затворов, так и из-за клея.
Ответить | Правка | Наверх | Cообщить модератору

73. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от Я (??), 16-Июл-23, 23:05 
какая разница что там на датчиках если процессор не пререгревается и работает нормально без тротлинга?
Ответить | Правка | Наверх | Cообщить модератору

30. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +4 +/
Сообщение от Аноним (29), 16-Июл-23, 14:48 
Это было на самых первых реализациях от интела. Этого уже нет, если укладывается в теплопакет - частота будет та же.

Так и AVX-512 за троттлинг и снижение частоты гнобили, а *внезапно* это оказалось просто легкой болячкой первых интеловских реализаций, вон в Zen 4 никакого снижения частоты от AVX-512 не происходит. И теперь даже memcpy() с ним оказывается эффективнее воткнуть во всех программы, а то что когда-то Линус говорил против этого - оказалось частью истории и неактуальной частностью. Прошло время, ошибки изучили, сделали нормально. Вон, ознакомьтесь с бенчмарками phoronix с/без AVX2 и AVX-512.

Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору

36. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноньимъ (ok), 16-Июл-23, 15:27 
В процессорах нет инструкций для копирования произвольных кусков памяти?
Ответить | Правка | Наверх | Cообщить модератору

57. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Oe (?), 16-Июл-23, 18:15 
Нету, проще каждое поколение наращивать количество ядер и продавать. Ой, уже давно уперлись в потребление в пол-киловатта, поэтому чтобы добавить еще больше ядер, половину ядер урезают по частотам под соусом "энергоэффективности и экологии", так можно еще пару лет делать новые "инновационные" поколения процессоров и впаривать хомякам, не внося абсолютно никаких изменений в архитектуру и техпроцесс.
Ответить | Правка | Наверх | Cообщить модератору

59. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноньимъ (ok), 16-Июл-23, 18:26 
"Прогресс"

Ответить | Правка | Наверх | Cообщить модератору

82. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от n00by (ok), 17-Июл-23, 08:05 
>> В процессорах нет инструкций для копирования произвольных кусков памяти?
> Нету,

Прекратите распространять мракобесие.

Ответить | Правка | К родителю #57 | Наверх | Cообщить модератору

81. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +2 +/
Сообщение от n00by (ok), 17-Июл-23, 08:02 
Есть, начиная с 16-ти разрядных 8086.

rep movs

В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из кеша (prefetchnta), но давно ускорили.

Ответить | Правка | К родителю #36 | Наверх | Cообщить модератору

90. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноньимъ (ok), 17-Июл-23, 11:26 
> Есть, начиная с 16-ти разрядных 8086.
> rep movs
> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
> кеша (prefetchnta), но давно ускорили.

Зачем тогда avx используют для копирования?

И разве это не просто способ повторения копирования одного слова?

Ответить | Правка | Наверх | Cообщить модератору

91. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от n00by (ok), 17-Июл-23, 12:36 
>> Есть, начиная с 16-ти разрядных 8086.
>> rep movs
>> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
>> кеша (prefetchnta), но давно ускорили.
> Зачем тогда avx используют для копирования?
> И разве это не просто способ повторения копирования одного слова?

Не знаю, зачем. Может маркетинг, или очередной выигрыш на уровне погрешности измерений.

Вот цитата 64-ia-32-architectures-optimization-manual.pdf

2.6.6 REP String Enhancement

REP prefix in conjunction with MOVS/STOS instruction and a count value in ECX are frequently used to
implement library functions such as memcpy()/memset().
...
Fast string (ECX >= 76: excluding REP MOVSB): the processor implementation provides hardware
optimization by moving as many pieces of data in 16 bytes as possible. The latency of REP string
latency will vary if one of the 16-byte data transfer spans across cache line boundary:
...
In order for REP string to operate in “fast string” mode, previous microarchitectures requires address
alignment. In Intel microarchitecture code name Nehalem, REP string can operate in “fast string”
mode even if address is not aligned to 16 bytes.

Обратите внимание на "аппаратная оптимизация" (hardware optimization).

Проблема со скоростью копирования была во времена Athlon XP и разобрана в http://files.rsdn.ru/23380/AMD_block_prefetch_paper.pdf
Смысл в том, что память читается не побайтно, а кратно размеру линии кэша, и лишнего загрязнения кэша желательно избегать.
В следующем поколении Intel оптимизировали REP MOVSB и она догнала по скорости оптимизированные циклы.

Ответить | Правка | Наверх | Cообщить модератору

118. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (118), 03-Янв-24, 21:38 
Там целая эпопея https://stackoverflow.com/questions/43343231/enhanced-rep-mo...
Ответить | Правка | К родителю #90 | Наверх | Cообщить модератору

46. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от Аноним (46), 16-Июл-23, 16:51 
Ага, такой лёгкой болячкой оказалось, что вообще нафиг выпилили из новых процессоров.
Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

56. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от анонимус (??), 16-Июл-23, 18:10 
Выпилили чтобы зеоны продавать, в них-то avx512 остался.
Ответить | Правка | Наверх | Cообщить модератору

65. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (65), 16-Июл-23, 19:19 
Выпилили по совершенно другой причине.
Ответить | Правка | К родителю #46 | Наверх | Cообщить модератору

80. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (46), 17-Июл-23, 07:35 
И пр какой же? Только не надо вот про зионы, как выше написали, эти рынки вообще не пересекаются.
В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.
Ответить | Правка | Наверх | Cообщить модератору

98. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 18-Июл-23, 00:33 
Очевидно, потому что малые E-ядра не могут в AVX-512. Скорее всего, тупо не влезло по площади в кремнии и по энергопотреблению, даже если делать в double pumped варианте без добавления новых исполнительных устройств. Регистров больше, более сложный shuffle блок, 64-битный блок векторного умножения.

А если спросите "а как же модели без E-ядер", то ответ тоже очевиден - сегментирование рынка. Да, чтобы брали зионы за конский ценник, кому оно действительно надо.

> В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.

С пробуждением. До недавнего времени в Pentium'ах и Celeron'ах не было AVX. Никакого, только SSE.
Так что ничто не ново под луной.

Ответить | Правка | Наверх | Cообщить модератору

69. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от S22 (?), 16-Июл-23, 21:44 
В zen4 avx512 выполняется в 2 инструкции так как ширина канала 256. По факту avx512 там не даёт существенных преимуществ над avx2
Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

71. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от анонимус (??), 16-Июл-23, 22:44 
Phoronix потестил и смысл очень даже есть: https://www.phoronix.com/review/amd-zen4-avx512
а вот с 512бит шириной канала есть вопросы поскольку штука узкоспециализированная, у интел тоже не дураки чтобы выкинуть поддержку из гражданских моделей, ибо греется сильней и зря занимает полезное место. Можно конечно придумать куда впихнуть, но тут проблема курицы и яйца
Ответить | Правка | Наверх | Cообщить модератору

79. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +1 +/
Сообщение от S22 (?), 17-Июл-23, 07:29 
Увеличение скорости на 10% против нормативных 2х раз.

Avx512 там добавили для галочки. Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?

Ответить | Правка | Наверх | Cообщить модератору

83. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от анонимус (??), 17-Июл-23, 08:10 
> против нормативных 2х раз

uwot

https://www.phoronix.com/review/rocket-lake-avx512
https://www.phoronix.com/review/zen4-avx512-7700x

> как я понимаю многопоточность не будет работать с avx512 в линуксе

Ну да, а HPC для которых всё затевалось на виндосервере работают. Вон Майкл даже на епике потестил и есть сравнение с "настоящим" avx512 на интелах

https://www.phoronix.com/review/amd-epyc-avx512
https://www.phoronix.com/review/intel-sapphirerapids-avx512/

Может посмотреть тесты на железе сперва?

Ответить | Правка | Наверх | Cообщить модератору

99. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Аноним (98), 18-Июл-23, 00:35 
> Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?

Чего только не прочитаешь в комментах.

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

103. "Проект Minotaur развивает оптимизатор векторных инструкций д..."  +/
Сообщение от Staxemail (ok), 18-Июл-23, 07:42 
Не туда смотрите. Вот вам в TensorFlow и в два раза прирост: https://www.phoronix.com/review/amd-ryzen7040-avx512/7

При совершенно том же теплопакете. Да, на райзене, потому что на Ice Lake старая реализация, которая так повышала энергопотребление и из-за этого мобильный CPU снижал частоту. Да, вне задач рендеринга и AI двухкратный выигрыш получить сложно, мало что еще параллелится до такой степени, чтобы 512 бит за раз перемалывать. Но когда что-то параллелится - выигрыш на чистом месте вплоть до двухкратного относительно AVX2 без доп. расхода энергии (8 страница).

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру