forum.opennet.ru

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Режим отображения отдельной подветви беседы		[ Отслеживать ]

Оглавление

Проект Minotaur развивает оптимизатор векторных инструкций для LLVM , opennews (??), 16-Июл-23, (0) [смотреть все]

много человекочасов, пропукали не один стул, построили целую науку, добились пов, Аноним (1), 10:43 , 16-Июл-23, (1) –21 //

Прогресс в навязывании avx2, Аноним (3), 10:58 , 16-Июл-23, (3) +3
Ты шутишь Это целые 1 3 Нука шляпу сними , Аноним (9), 11:36 , 16-Июл-23, (9) +12 //

Так потратили человекочасы одна группа и один раз, а 1 3 прироста теперь будут , Аноним (29), 14:45 , 16-Июл-23, (29) +17 //

для всех, кто ЭТО использует А кто будет использовать прилепленныетсбоку васяно, Аноним (51), 17:08 , 16-Июл-23, (51)

Например, любой крупный облачный оператор Да и в целом, сэкономить 1 денег чер, Аноним (58), 18:17 , 16-Июл-23, (58) +4
для некоторых задач и ускорение на 0 1 это миллионы доларов экономии в год , Я (??), 23:03 , 16-Июл-23, (72)

Ага - полезность науки это растет как длина фрактала к ометаемой площади , AKTEON (?), 13:19 , 16-Июл-23, (23) //

Покуда учёные не создали perpetuum mobile, как бы мы полезность не определили, о, freehck (ok), 10:50 , 17-Июл-23, (88)

Ты пропукал свой комментарий, это прогресс я считаю , Аноним (27), 13:41 , 16-Июл-23, (27) +7
На больших масштабах это могут быть огромные деньги К счастью они будут потраче, Anonymous1917 (?), 09:18 , 17-Июл-23, (86) +1
Для каких-нибудь видеоигр один процент - это целый кадр, если метишь в 120 FPS , Аноним (87), 09:33 , 17-Июл-23, (87) //

разве есть какая-то разница 119 и 120 fps , Аноним (1), 08:10 , 18-Июл-23, (105)

А они учитывают то что многие процессоры тут же включают троттлинг от таких инст, Аноним (2), 10:58 , 16-Июл-23, (2) –4 //

околесицу и чушь про тротлинг при вызове таких инструкций не несите, хорошо спа, Аноним (6), 11:29 , 16-Июл-23, (6) +2 //

Может троттлинг и не точное определение, но то, что ядра снижают частоту при исп, Аноним (7), 11:33 , 16-Июл-23, (7) –1 //

Это то же самое и по той же причине Своеобразный преемптивный троттлинг, avx ле, Аноним (2), 12:33 , 16-Июл-23, (15)

То, что это в принципе самый долгособираемый пакет, вопрос отдельный, троттлить , Аноним (2), 12:37 , 16-Июл-23, (16)
Пользуйтесь процессорами AMD, у них частоты одинаковые при любых инструкциях , Аноним (41), 15:48 , 16-Июл-23, (41) +2

А как же быть с тем, что процессоры АМД не показывают реальную температуру на да, Аноним (2), 15:54 , 16-Июл-23, (42) –1

какая разница что там на датчиках если процессор не пререгревается и работает но, Я (??), 23:05 , 16-Июл-23, (73) +2

Это было на самых первых реализациях от интела Этого уже нет, если укладывается, Аноним (29), 14:48 , 16-Июл-23, (30) +4

В процессорах нет инструкций для копирования произвольных кусков памяти , Аноньимъ (ok), 15:27 , 16-Июл-23, (36) +1

Нету, проще каждое поколение наращивать количество ядер и продавать Ой, уже дав, Oe (?), 18:15 , 16-Июл-23, (57)

Прогресс , Аноньимъ (ok), 18:26 , 16-Июл-23, (59) +1
Прекратите распространять мракобесие , n00by (ok), 08:05 , 17-Июл-23, (82) +2

Есть, начиная с 16-ти разрядных 8086 rep movsВ какие-то периоды времени она рабо, n00by (ok), 08:02 , 17-Июл-23, (81) +2

Зачем тогда avx используют для копирования И разве это не просто способ повторен, Аноньимъ (ok), 11:26 , 17-Июл-23, (90)

Не знаю, зачем Может маркетинг, или очередной выигрыш на уровне погрешности изм, n00by (ok), 12:36 , 17-Июл-23, (91) +1
Там целая эпопея https stackoverflow com questions 43343231 enhanced-rep-movsb, Аноним (118), 21:38 , 03-Янв-24, (118)

Ага, такой лёгкой болячкой оказалось, что вообще нафиг выпилили из новых процесс, Аноним (46), 16:51 , 16-Июл-23, (46) +1

Выпилили чтобы зеоны продавать, в них-то avx512 остался , анонимус (??), 18:10 , 16-Июл-23, (56) +1
Выпилили по совершенно другой причине , Аноним (65), 19:19 , 16-Июл-23, (65)

И пр какой же Только не надо вот про зионы, как выше написали, эти рынки вообще, Аноним (46), 07:35 , 17-Июл-23, (80)

Очевидно, потому что малые E-ядра не могут в AVX-512 Скорее всего, тупо не влез, Аноним (98), 00:33 , 18-Июл-23, (98)

В zen4 avx512 выполняется в 2 инструкции так как ширина канала 256 По факту avx, S22 (?), 21:44 , 16-Июл-23, (69)

Phoronix потестил и смысл очень даже есть https www phoronix com review amd-z, анонимус (??), 22:44 , 16-Июл-23, (71)

Увеличение скорости на 10 против нормативных 2х раз Avx512 там добавили для гал, S22 (?), 07:29 , 17-Июл-23, (79) +1

uwothttps www phoronix com review rocket-lake-avx512https www phoronix com r, анонимус (??), 08:10 , 17-Июл-23, (83)
Чего только не прочитаешь в комментах , Аноним (98), 00:35 , 18-Июл-23, (99)
Не туда смотрите Вот вам в TensorFlow и в два раза прирост https www phoroni, Stax (ok), 07:42 , 18-Июл-23, (103)

А многие не включают , Аноним (65), 14:53 , 16-Июл-23, (32) +3 //

Вроде, это каждый раз повторяется Добавляют новые SIMD, не вывозят по тепловыде, Аноним (2), 15:10 , 16-Июл-23, (33) //

У АМД была похожая история с совместными блоками -- вроде, ядер много, а использ, Аноним (2), 15:14 , 16-Июл-23, (34)

Всё лучше чем проц сгорает если снять кулер , Аноним (27), 15:35 , 16-Июл-23, (38)

Тут, конечно, пара человек с сокетом 462 найдётся, но в основном все обновились, Аноним (46), 16:54 , 16-Июл-23, (47) +2

Они тогда решили сэкономить на блоках для плавающей запятой 1 на 2 ядра В бул, An2 (?), 17:03 , 16-Июл-23, (49)

Работало вообще оно отлично для обычных задач Да, на всяких расчётах не очень хо, Аноньимъ (ok), 22:08 , 16-Июл-23, (70) +3

А вы посмотрите обзоры и сравнения тех времен, и перестанет казаться Разделяемый, Аноним (98), 01:02 , 18-Июл-23, (100)

Смотрел обзоры, видел много некомпетентности И успешно использовал эти апушки мн, Аноньимъ (ok), 02:39 , 18-Июл-23, (101)
Первой их апушкой у меня былAMD A10-5800KРазгонялся вообще отлично При этом был , Аноньимъ (ok), 02:48 , 18-Июл-23, (102)

расчитанный на высокую пропускную способность throughput в ущерб задержке la, n00by (ok), 09:13 , 18-Июл-23, (106)

Да нет, всё прилеплено куда надо Да, NetBurst был расчитан на высокие частоты, Аноним (98), 12:57 , 18-Июл-23, (108) +1

Но толку не было, потому она архитектура NetBurst и породила мем кукурузные г, n00by (ok), 09:01 , 19-Июл-23, (111)

Относится Почитайте статьи по ссылкам , Аноним (98), 11:27 , 19-Июл-23, (114)
Вот сам читай их, подбирай цитаты и подтверждай своё заявление Мне достаточно к, n00by (ok), 15:17 , 19-Июл-23, (115)
Всё понятно, удачи с вашим багажом знаний , Аноним (98), 23:04 , 19-Июл-23, (116)
Бгг, но ведь ты как то живёшь, не понимая индукцию , n00by (ok), 09:18 , 20-Июл-23, (117)

очень медленно будет , Аноним (3), 10:59 , 16-Июл-23, (4) //

с какого это перепугу вы, судя по всему, вообще не понимаете, что это и как оно, Аноним (8), 11:35 , 16-Июл-23, (8) +3 //

компиляция медленная, не выполнение SMT - это тяжёлая артиллерия для таких зада, Аноним (18), 12:45 , 16-Июл-23, (18) +5

Rewrite Generator - Rewrites - Rewrite Rules - Rewrite, Аноним (17), 12:43 , 16-Июл-23, (17) //

Знают толк в С , Аноньимъ (ok), 12:57 , 16-Июл-23, (21) –1

Интересно было бы сравнить с GCC O3 pgo , Аноним (2), 12:56 , 16-Июл-23, (20) //

Не заставляй афтаров LLVM посыпать себе голову пеплом Спиды тестируются на O2 в, Аноним (63), 18:46 , 16-Июл-23, (63)

Это очень круто, но бывает эти avx инструкции нужны для всяких векторных вычисле, Аноньимъ (ok), 13:05 , 16-Июл-23, (22)
Может я чего-то недопонимаю, но зачем в LLVM вообще для if --p припле, Аноним (24), 13:21 , 16-Июл-23, (24) //

Они цикл разворачивают, как я понимаю Но многое остаётся загадкой да , Аноньимъ (ok), 13:30 , 16-Июл-23, (26) +2
Внезапно, это прямое назначение векторных инструкций - выполнить одну операцию н, Аноним (65), 14:51 , 16-Июл-23, (31) +1 //

Стоит ли вообще такое делать без явного указания программиста что именно так нуж, Аноньимъ (ok), 15:40 , 16-Июл-23, (39) //

Конкретно в этом примере не весь цикл, а только оператор сравнения Фактически в, Tim (??), 16:41 , 16-Июл-23, (44)

Не совсем Хотя у POWER VMX очень интересно сделано оно игнорирует последние n , uis (??), 16:55 , 16-Июл-23, (48)
Для этого компилятору нужно знать размер массива , Аноньимъ (ok), 17:23 , 16-Июл-23, (53)

Но откуда программисту знать, на каком процессоре код будет выполняться Можно л, An2 (?), 17:08 , 16-Июл-23, (50)

Да просто не от куда, загадка Не говоря уже о том, что никогда никакой код и не , Аноньимъ (ok), 17:21 , 16-Июл-23, (52)

Очень даже возможно Самый известный проигрыватель mplayer при запуске как раз о, An2 (?), 17:41 , 16-Июл-23, (54)

Не знаю Я думаю это не такой простой вопрос , Аноньимъ (ok), 18:40 , 16-Июл-23, (62)

Очевидно, он известен, т к p указывает на конец, а name - на начало Никаких чуд, Аноним (65), 19:39 , 16-Июл-23, (67)

Да, вы правы, я как-то не так этот кот прочитал , Аноньимъ (ok), 20:00 , 16-Июл-23, (68)

Скрыто модератором, YM2608 (?), 15:21 , 16-Июл-23, (35) –1 //

Скрыто модератором, Аноним (27), 15:33 , 16-Июл-23, (37) //

Скрыто модератором, YM2608 (?), 15:43 , 16-Июл-23, (40) //

Скрыто модератором, Аноним (2), 16:12 , 16-Июл-23, (43)

Ауч, кэшу больно, uis (??), 16:51 , 16-Июл-23, (45) //

Меня больше смущает , Аноньимъ (ok), 18:33 , 16-Июл-23, (60) //

Yup Тоже это усмотрел, ну их нафиг , Tron is Whistling (?), 23:11 , 16-Июл-23, (75) +1 //

Только ыксперты опеннета могут закопать 30-летний опыт Free Software Foundation, pavlinux (ok), 13:37 , 17-Июл-23, (95) +2

Тут-то как раз всё нормально Контекст , Tron is Whistling (?), 22:00 , 17-Июл-23, (97)

Процессоры, выпущенные в последние лет 15-20 вполне могут распознать обратную ит, Аноним (65), 19:30 , 16-Июл-23, (66) +1

Кто Генту хаял из-за ничтожных 3 прироста производительности Наука - понимать , Аноним (55), 18:00 , 16-Июл-23, (55) +2 //

1 3 - это ниже уровня стат погрешности Статья лежит не рецензированная Такое, Аноним (61), 18:36 , 16-Июл-23, (61) +1 //

Вот не надо пытаться показаться умным, не зная значения термина , Аноним (46), 11:02 , 17-Июл-23, (89) –1

Не, я к этим ребятам не зайду Пример уж слишком весел do if --p p, Tron is Whistling (?), 23:09 , 16-Июл-23, (74) +2 //

Да и если p start - тоже внезапно окажется не менее весело , Tron is Whistling (?), 23:13 , 16-Июл-23, (76) +1
Но если до проверки p start или установки p start X догонит каждый второй , Tron is Whistling (?), 23:14 , 16-Июл-23, (77)
Это будет означать, что один из указателей не выровнен, что значит UB и косяк пр, Аноним (65), 02:47 , 17-Июл-23, (78) //

Он имел ввиду не кратна размеру операнда SIMD инструкции , но сформулировал оши, n00by (ok), 08:21 , 17-Июл-23, (84) +1 //

А кто сказал, что там char Из вырванных из контекста строк не видно , Tron is Whistling (?), 08:09 , 18-Июл-23, (104)

Видно Там _ вместо L _ , n00by (ok), 09:25 , 18-Июл-23, (107)

Фантазировать можно в любую сторону Сравнивать с _ можно хоть int, хоть doubl, Аноним (98), 13:02 , 18-Июл-23, (110) +1

Аноним - игнорим , n00by (ok), 09:06 , 19-Июл-23, (112)

Я читаю то, что написано, и написано там было совсем не то, что у вас И сдаётся, Аноним (98), 12:59 , 18-Июл-23, (109)

Мне ничего не кажется - я посмотрел и понял листинг в статье Проблема с грануля, n00by (ok), 09:09 , 19-Июл-23, (113)

Там наверняка отдельных два цикла один обрабатывает байты пачкой, а второй оста, n00by (ok), 08:26 , 17-Июл-23, (85) +1

Открою секрет, чтоб подсчитать определитель матрицы иль повернуть тело на 146 , , pavlinux (ok), 12:45 , 17-Июл-23, (92)
Cейчас кто-нибудь, вообще, ещё считает такты процессора А то ж окажется, что 25, pavlinux (ok), 12:48 , 17-Июл-23, (93)
Талантливые программисты в среднем ускорение составило 2 2 При тестировании на, Аноним (94), 13:01 , 17-Июл-23, (94) +4

Сообщения [Сортировка по времени | RSS]

7. "Проект Minotaur развивает оптимизатор векторных инструкций д..." –1 +/–

Сообщение от Аноним (7), 16-Июл-23, 11:33

Может троттлинг и не точное определение, но то, что ядра снижают частоту при использовании AVX-* - факт.

Ответить | Правка | Наверх | Cообщить модератору

15. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (2), 16-Июл-23, 12:33

Это то же самое и по той же причине. Своеобразный преемптивный троттлинг, avx легко отобрали пальму первенства по нагреву у sse и fpu. Особенно заметно, когда СО в итоге всё же не справляется и легко падает в полноценный троттлинг. Для примера, компиляция вебкита (и хромиума соотвественно) -- единственный процесс из всех пакетов, который выкидывал мой пк в защиту от перегрева (температура на ~20 градусов выше обычной максимальной).

Ответить | Правка | Наверх | Cообщить модератору

16. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (2), 16-Июл-23, 12:37

То, что это в принципе самый долгособираемый пакет, вопрос отдельный, троттлить начинало довольно быстро и соответственно всё растягивалось на долго.

Ответить | Правка | Наверх | Cообщить модератору

41. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +2 +/–

Сообщение от Аноним (41), 16-Июл-23, 15:48

Пользуйтесь процессорами AMD, у них частоты одинаковые при любых инструкциях.

Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору

42. "Проект Minotaur развивает оптимизатор векторных инструкций д..." –1 +/–

Сообщение от Аноним (2), 16-Июл-23, 15:54

А как же быть с тем, что процессоры АМД не показывают реальную температуру на датчиках? Из-за того, что они склеены из различной отбраковки, результаты могут довольно разниться. У них намного жёстче ограничения по рабочим температурам, как из-за материала затворов, так и из-за клея.

Ответить | Правка | Наверх | Cообщить модератору

73. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +2 +/–

Сообщение от Я (??), 16-Июл-23, 23:05

какая разница что там на датчиках если процессор не пререгревается и работает нормально без тротлинга?

Ответить | Правка | Наверх | Cообщить модератору

30. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +4 +/–

Сообщение от Аноним (29), 16-Июл-23, 14:48

Это было на самых первых реализациях от интела. Этого уже нет, если укладывается в теплопакет - частота будет та же.
Так и AVX-512 за троттлинг и снижение частоты гнобили, а *внезапно* это оказалось просто легкой болячкой первых интеловских реализаций, вон в Zen 4 никакого снижения частоты от AVX-512 не происходит. И теперь даже memcpy() с ним оказывается эффективнее воткнуть во всех программы, а то что когда-то Линус говорил против этого - оказалось частью истории и неактуальной частностью. Прошло время, ошибки изучили, сделали нормально. Вон, ознакомьтесь с бенчмарками phoronix с/без AVX2 и AVX-512.

Ответить | Правка | К родителю #7 | Наверх | Cообщить модератору

36. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от Аноньимъ (ok), 16-Июл-23, 15:27

В процессорах нет инструкций для копирования произвольных кусков памяти?

Ответить | Правка | Наверх | Cообщить модератору

57. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Oe (?), 16-Июл-23, 18:15

Нету, проще каждое поколение наращивать количество ядер и продавать. Ой, уже давно уперлись в потребление в пол-киловатта, поэтому чтобы добавить еще больше ядер, половину ядер урезают по частотам под соусом "энергоэффективности и экологии", так можно еще пару лет делать новые "инновационные" поколения процессоров и впаривать хомякам, не внося абсолютно никаких изменений в архитектуру и техпроцесс.

Ответить | Правка | Наверх | Cообщить модератору

59. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от Аноньимъ (ok), 16-Июл-23, 18:26

"Прогресс"

Ответить | Правка | Наверх | Cообщить модератору

82. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +2 +/–

Сообщение от n00by (ok), 17-Июл-23, 08:05

>> В процессорах нет инструкций для копирования произвольных кусков памяти?
> Нету,
Прекратите распространять мракобесие.

Ответить | Правка | К родителю #57 | Наверх | Cообщить модератору

81. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +2 +/–

Сообщение от n00by (ok), 17-Июл-23, 08:02

Есть, начиная с 16-ти разрядных 8086.
rep movs
В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из кеша (prefetchnta), но давно ускорили.

Ответить | Правка | К родителю #36 | Наверх | Cообщить модератору

90. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноньимъ (ok), 17-Июл-23, 11:26

> Есть, начиная с 16-ти разрядных 8086.
> rep movs
> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
> кеша (prefetchnta), но давно ускорили.
Зачем тогда avx используют для копирования?
И разве это не просто способ повторения копирования одного слова?

Ответить | Правка | Наверх | Cообщить модератору

91. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от n00by (ok), 17-Июл-23, 12:36

>> Есть, начиная с 16-ти разрядных 8086.
>> rep movs
>> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из
>> кеша (prefetchnta), но давно ускорили.
> Зачем тогда avx используют для копирования?
> И разве это не просто способ повторения копирования одного слова?
Не знаю, зачем. Может маркетинг, или очередной выигрыш на уровне погрешности измерений.
Вот цитата 64-ia-32-architectures-optimization-manual.pdf
2.6.6 REP String Enhancement
REP prefix in conjunction with MOVS/STOS instruction and a count value in ECX are frequently used to
implement library functions such as memcpy()/memset().
...
Fast string (ECX >= 76: excluding REP MOVSB): the processor implementation provides hardware
optimization by moving as many pieces of data in 16 bytes as possible. The latency of REP string
latency will vary if one of the 16-byte data transfer spans across cache line boundary:
...
In order for REP string to operate in “fast string” mode, previous microarchitectures requires address
alignment. In Intel microarchitecture code name Nehalem, REP string can operate in “fast string”
mode even if address is not aligned to 16 bytes.
Обратите внимание на "аппаратная оптимизация" (hardware optimization).
Проблема со скоростью копирования была во времена Athlon XP и разобрана в http://files.rsdn.ru/23380/AMD_block_prefetch_paper.pdf
Смысл в том, что память читается не побайтно, а кратно размеру линии кэша, и лишнего загрязнения кэша желательно избегать.
В следующем поколении Intel оптимизировали REP MOVSB и она догнала по скорости оптимизированные циклы.

Ответить | Правка | Наверх | Cообщить модератору

118. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (118), 03-Янв-24, 21:38

Там целая эпопея https://stackoverflow.com/questions/43343231/enhanced-rep-mo...

Ответить | Правка | К родителю #90 | Наверх | Cообщить модератору

46. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от Аноним (46), 16-Июл-23, 16:51

Ага, такой лёгкой болячкой оказалось, что вообще нафиг выпилили из новых процессоров.

Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

56. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от анонимус (??), 16-Июл-23, 18:10

Выпилили чтобы зеоны продавать, в них-то avx512 остался.

Ответить | Правка | Наверх | Cообщить модератору

65. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (65), 16-Июл-23, 19:19

Выпилили по совершенно другой причине.

Ответить | Правка | К родителю #46 | Наверх | Cообщить модератору

80. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (46), 17-Июл-23, 07:35

И пр какой же? Только не надо вот про зионы, как выше написали, эти рынки вообще не пересекаются.
В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.

Ответить | Правка | Наверх | Cообщить модератору

98. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (98), 18-Июл-23, 00:33

Очевидно, потому что малые E-ядра не могут в AVX-512. Скорее всего, тупо не влезло по площади в кремнии и по энергопотреблению, даже если делать в double pumped варианте без добавления новых исполнительных устройств. Регистров больше, более сложный shuffle блок, 64-битный блок векторного умножения.
А если спросите "а как же модели без E-ядер", то ответ тоже очевиден - сегментирование рынка. Да, чтобы брали зионы за конский ценник, кому оно действительно надо.
> В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.
С пробуждением. До недавнего времени в Pentium'ах и Celeron'ах не было AVX. Никакого, только SSE.
Так что ничто не ново под луной.

Ответить | Правка | Наверх | Cообщить модератору

69. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от S22 (?), 16-Июл-23, 21:44

В zen4 avx512 выполняется в 2 инструкции так как ширина канала 256. По факту avx512 там не даёт существенных преимуществ над avx2

Ответить | Правка | К родителю #30 | Наверх | Cообщить модератору

71. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от анонимус (??), 16-Июл-23, 22:44

Phoronix потестил и смысл очень даже есть: https://www.phoronix.com/review/amd-zen4-avx512
а вот с 512бит шириной канала есть вопросы поскольку штука узкоспециализированная, у интел тоже не дураки чтобы выкинуть поддержку из гражданских моделей, ибо греется сильней и зря занимает полезное место. Можно конечно придумать куда впихнуть, но тут проблема курицы и яйца

Ответить | Правка | Наверх | Cообщить модератору

79. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +1 +/–

Сообщение от S22 (?), 17-Июл-23, 07:29

Увеличение скорости на 10% против нормативных 2х раз.
Avx512 там добавили для галочки. Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?

Ответить | Правка | Наверх | Cообщить модератору

83. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от анонимус (??), 17-Июл-23, 08:10

> против нормативных 2х раз
uwot
https://www.phoronix.com/review/rocket-lake-avx512
https://www.phoronix.com/review/zen4-avx512-7700x
> как я понимаю многопоточность не будет работать с avx512 в линуксе
Ну да, а HPC для которых всё затевалось на виндосервере работают. Вон Майкл даже на епике потестил и есть сравнение с "настоящим" avx512 на интелах
https://www.phoronix.com/review/amd-epyc-avx512
https://www.phoronix.com/review/intel-sapphirerapids-avx512/
Может посмотреть тесты на железе сперва?

Ответить | Правка | Наверх | Cообщить модератору

99. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Аноним (98), 18-Июл-23, 00:35

> Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?
Чего только не прочитаешь в комментах.

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

103. "Проект Minotaur развивает оптимизатор векторных инструкций д..." +/–

Сообщение от Stax (ok), 18-Июл-23, 07:42

Не туда смотрите. Вот вам в TensorFlow и в два раза прирост: https://www.phoronix.com/review/amd-ryzen7040-avx512/7
При совершенно том же теплопакете. Да, на райзене, потому что на Ice Lake старая реализация, которая так повышала энергопотребление и из-за этого мобильный CPU снижал частоту. Да, вне задач рендеринга и AI двухкратный выигрыш получить сложно, мало что еще параллелится до такой степени, чтобы 512 бит за раз перемалывать. Но когда что-то параллелится - выигрыш на чистом месте вплоть до двухкратного относительно AVX2 без доп. расхода энергии (8 страница).

Ответить | Правка | К родителю #79 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру


	7. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	–1 +/–
	Сообщение от Аноним (7), 16-Июл-23, 11:33
	Может троттлинг и не точное определение, но то, что ядра снижают частоту при использовании AVX-* - факт.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	15. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (2), 16-Июл-23, 12:33
	Это то же самое и по той же причине. Своеобразный преемптивный троттлинг, avx легко отобрали пальму первенства по нагреву у sse и fpu. Особенно заметно, когда СО в итоге всё же не справляется и легко падает в полноценный троттлинг. Для примера, компиляция вебкита (и хромиума соотвественно) -- единственный процесс из всех пакетов, который выкидывал мой пк в защиту от перегрева (температура на ~20 градусов выше обычной максимальной).
	Ответить \| Правка \| Наверх \| Cообщить модератору


	16. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (2), 16-Июл-23, 12:37
	То, что это в принципе самый долгособираемый пакет, вопрос отдельный, троттлить начинало довольно быстро и соответственно всё растягивалось на долго.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	41. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+2 +/–
	Сообщение от Аноним (41), 16-Июл-23, 15:48
	Пользуйтесь процессорами AMD, у них частоты одинаковые при любых инструкциях.
	Ответить \| Правка \| К родителю #15 \| Наверх \| Cообщить модератору


	42. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	–1 +/–
	Сообщение от Аноним (2), 16-Июл-23, 15:54
	А как же быть с тем, что процессоры АМД не показывают реальную температуру на датчиках? Из-за того, что они склеены из различной отбраковки, результаты могут довольно разниться. У них намного жёстче ограничения по рабочим температурам, как из-за материала затворов, так и из-за клея.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	73. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+2 +/–
	Сообщение от Я (??), 16-Июл-23, 23:05
	какая разница что там на датчиках если процессор не пререгревается и работает нормально без тротлинга?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	30. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+4 +/–
	Сообщение от Аноним (29), 16-Июл-23, 14:48
	Это было на самых первых реализациях от интела. Этого уже нет, если укладывается в теплопакет - частота будет та же. Так и AVX-512 за троттлинг и снижение частоты гнобили, а внезапно это оказалось просто легкой болячкой первых интеловских реализаций, вон в Zen 4 никакого снижения частоты от AVX-512 не происходит. И теперь даже memcpy() с ним оказывается эффективнее воткнуть во всех программы, а то что когда-то Линус говорил против этого - оказалось частью истории и неактуальной частностью. Прошло время, ошибки изучили, сделали нормально. Вон, ознакомьтесь с бенчмарками phoronix с/без AVX2 и AVX-512.
	Ответить \| Правка \| К родителю #7 \| Наверх \| Cообщить модератору


	36. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от Аноньимъ (ok), 16-Июл-23, 15:27
	В процессорах нет инструкций для копирования произвольных кусков памяти?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	57. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Oe (?), 16-Июл-23, 18:15
	Нету, проще каждое поколение наращивать количество ядер и продавать. Ой, уже давно уперлись в потребление в пол-киловатта, поэтому чтобы добавить еще больше ядер, половину ядер урезают по частотам под соусом "энергоэффективности и экологии", так можно еще пару лет делать новые "инновационные" поколения процессоров и впаривать хомякам, не внося абсолютно никаких изменений в архитектуру и техпроцесс.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	59. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от Аноньимъ (ok), 16-Июл-23, 18:26
	"Прогресс"
	Ответить \| Правка \| Наверх \| Cообщить модератору


	82. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+2 +/–
	Сообщение от n00by (ok), 17-Июл-23, 08:05
	>> В процессорах нет инструкций для копирования произвольных кусков памяти? > Нету, Прекратите распространять мракобесие.
	Ответить \| Правка \| К родителю #57 \| Наверх \| Cообщить модератору


	81. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+2 +/–
	Сообщение от n00by (ok), 17-Июл-23, 08:02
	Есть, начиная с 16-ти разрядных 8086. rep movs В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из кеша (prefetchnta), но давно ускорили.
	Ответить \| Правка \| К родителю #36 \| Наверх \| Cообщить модератору


	90. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноньимъ (ok), 17-Июл-23, 11:26
	> Есть, начиная с 16-ти разрядных 8086. > rep movs > В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из > кеша (prefetchnta), но давно ускорили. Зачем тогда avx используют для копирования? И разве это не просто способ повторения копирования одного слова?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	91. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от n00by (ok), 17-Июл-23, 12:36
	>> Есть, начиная с 16-ти разрядных 8086. >> rep movs >> В какие-то периоды времени она работала медленнее, чем цикл с предвыборкой из >> кеша (prefetchnta), но давно ускорили. > Зачем тогда avx используют для копирования? > И разве это не просто способ повторения копирования одного слова? Не знаю, зачем. Может маркетинг, или очередной выигрыш на уровне погрешности измерений. Вот цитата 64-ia-32-architectures-optimization-manual.pdf 2.6.6 REP String Enhancement REP prefix in conjunction with MOVS/STOS instruction and a count value in ECX are frequently used to implement library functions such as memcpy()/memset(). ... Fast string (ECX >= 76: excluding REP MOVSB): the processor implementation provides hardware optimization by moving as many pieces of data in 16 bytes as possible. The latency of REP string latency will vary if one of the 16-byte data transfer spans across cache line boundary: ... In order for REP string to operate in “fast string” mode, previous microarchitectures requires address alignment. In Intel microarchitecture code name Nehalem, REP string can operate in “fast string” mode even if address is not aligned to 16 bytes. Обратите внимание на "аппаратная оптимизация" (hardware optimization). Проблема со скоростью копирования была во времена Athlon XP и разобрана в http://files.rsdn.ru/23380/AMD_block_prefetch_paper.pdf Смысл в том, что память читается не побайтно, а кратно размеру линии кэша, и лишнего загрязнения кэша желательно избегать. В следующем поколении Intel оптимизировали REP MOVSB и она догнала по скорости оптимизированные циклы.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	118. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (118), 03-Янв-24, 21:38
	Там целая эпопея https://stackoverflow.com/questions/43343231/enhanced-rep-mo...
	Ответить \| Правка \| К родителю #90 \| Наверх \| Cообщить модератору


	46. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от Аноним (46), 16-Июл-23, 16:51
	Ага, такой лёгкой болячкой оказалось, что вообще нафиг выпилили из новых процессоров.
	Ответить \| Правка \| К родителю #30 \| Наверх \| Cообщить модератору


	56. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от анонимус (??), 16-Июл-23, 18:10
	Выпилили чтобы зеоны продавать, в них-то avx512 остался.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	65. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (65), 16-Июл-23, 19:19
	Выпилили по совершенно другой причине.
	Ответить \| Правка \| К родителю #46 \| Наверх \| Cообщить модератору


	80. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (46), 17-Июл-23, 07:35
	И пр какой же? Только не надо вот про зионы, как выше написали, эти рынки вообще не пересекаются. В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	98. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (98), 18-Июл-23, 00:33
	Очевидно, потому что малые E-ядра не могут в AVX-512. Скорее всего, тупо не влезло по площади в кремнии и по энергопотреблению, даже если делать в double pumped варианте без добавления новых исполнительных устройств. Регистров больше, более сложный shuffle блок, 64-битный блок векторного умножения. А если спросите "а как же модели без E-ядер", то ответ тоже очевиден - сегментирование рынка. Да, чтобы брали зионы за конский ценник, кому оно действительно надо. > В любом случае — это весьма стыдное в репутационном смысле решение. Вот представьте лет 20 назад: а давайте мы уберём SSE из наших пентиумов-3, и оставим его только в зионах! Дико? Дико. С пробуждением. До недавнего времени в Pentium'ах и Celeron'ах не было AVX. Никакого, только SSE. Так что ничто не ново под луной.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	69. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от S22 (?), 16-Июл-23, 21:44
	В zen4 avx512 выполняется в 2 инструкции так как ширина канала 256. По факту avx512 там не даёт существенных преимуществ над avx2
	Ответить \| Правка \| К родителю #30 \| Наверх \| Cообщить модератору


	71. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от анонимус (??), 16-Июл-23, 22:44
	Phoronix потестил и смысл очень даже есть: https://www.phoronix.com/review/amd-zen4-avx512 а вот с 512бит шириной канала есть вопросы поскольку штука узкоспециализированная, у интел тоже не дураки чтобы выкинуть поддержку из гражданских моделей, ибо греется сильней и зря занимает полезное место. Можно конечно придумать куда впихнуть, но тут проблема курицы и яйца
	Ответить \| Правка \| Наверх \| Cообщить модератору


	79. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+1 +/–
	Сообщение от S22 (?), 17-Июл-23, 07:29
	Увеличение скорости на 10% против нормативных 2х раз. Avx512 там добавили для галочки. Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	83. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от анонимус (??), 17-Июл-23, 08:10
	> против нормативных 2х раз uwot https://www.phoronix.com/review/rocket-lake-avx512 https://www.phoronix.com/review/zen4-avx512-7700x > как я понимаю многопоточность не будет работать с avx512 в линуксе Ну да, а HPC для которых всё затевалось на виндосервере работают. Вон Майкл даже на епике потестил и есть сравнение с "настоящим" avx512 на интелах https://www.phoronix.com/review/amd-epyc-avx512 https://www.phoronix.com/review/intel-sapphirerapids-avx512/ Может посмотреть тесты на железе сперва?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	99. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Аноним (98), 18-Июл-23, 00:35
	> Кстати, как я понимаю многопоточность не будет работать с avx512 в линуксе, так как регистры не сохраняются при переключении задач? Чего только не прочитаешь в комментах.
	Ответить \| Правка \| К родителю #79 \| Наверх \| Cообщить модератору


	103. "Проект Minotaur развивает оптимизатор векторных инструкций д..."	+/–
	Сообщение от Stax (ok), 18-Июл-23, 07:42
	Не туда смотрите. Вот вам в TensorFlow и в два раза прирост: https://www.phoronix.com/review/amd-ryzen7040-avx512/7 При совершенно том же теплопакете. Да, на райзене, потому что на Ice Lake старая реализация, которая так повышала энергопотребление и из-за этого мобильный CPU снижал частоту. Да, вне задач рендеринга и AI двухкратный выигрыш получить сложно, мало что еще параллелится до такой степени, чтобы 512 бит за раз перемалывать. Но когда что-то параллелится - выигрыш на чистом месте вплоть до двухкратного относительно AVX2 без доп. расхода энергии (8 страница).
	Ответить \| Правка \| К родителю #79 \| Наверх \| Cообщить модератору