The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Как физически вычислить процессор, который тротлит?"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Аппаратура, Железо / Linux)
Изначальное сообщение [ Отслеживать ]

"Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 23-Ноя-19, 10:30 
Доброго времени суток!

Есть сервер HP ProLiant DL560 8gen, на нем 4 процессора E5-4657L v2 2.4 - 2.9 GHz, 12 core +HT, и линукс debian. Для мониторинга работы системы - iLO4.
В процессе расчетов на сервере была потеря процессорного времени от 16 до 20%.
Решил промонитроить частоту и температуру - оказывается частота ниже номинальной при нагрузке (2693 МГц вместо 2900), а температура одного проца выше чем других (82С по сравнению с 76-78 на трех других).

Эти данные я получал в таких условиях:
нагрузка stress --cpu 96
анализ загрузки ядер ЦП sudo htop
анализ текущей частоты ЦП watch grep MHz /proc/cpuinfo
анализ температуры
1. sensors из-под ОС
2. соответсвующий раздел в iLO4

Следует отметить, что данные по температуре в iLO4 были на 30 градусов ниже чем в ОС и была температура 56 когда sensors показывал 82 на одном проце. Причем в iLO4 температура была почти одинакова для всех ЦП.

Поискав в интеренете как бороться с тротлингом , я решил поменять термопасту - на Arctic MX-4, сделал все аккуратно, поменял.
В итоге на всех ЦП по данным sensors температура под нагрузкой была 68-72C, а на проблемном + 82-84C  (high +82, crit +92).
Все куллеры работают нормально, пластиковый чехол для направления потока воздуха на месте.
Частота быстро падала с 2.9 до 2.6 ГГц.

Проблемный процессор в sensors имеет следующие "координаты"
cortemp-isa-0001
Adapter: ISA adapter
Package ID 1: +84C  (high +82, crit +92)
.......

Как вычислить, где он стоит физически?
Чтобы поменять его по гарантии?
И есть ли смысл менять? Верно ли я определил что проц тротлит и он виноват в занижении частоты на всех 4 процессорах и потере процессорного времени?

Дело в том , что расчеты могут ставиться в ночь или на двое суток - не хотелось бы чтобы чип сдох в тот момент, когда рядом никого не было.

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Как физически вычислить процессор, который тротлит?"  +4 +/
Сообщение от Фомичев (ok), 23-Ноя-19, 12:46 
>[оверквотинг удален]
> Package ID 1: +84C  (high +82, crit +92)
> .......
> Как вычислить, где он стоит физически?
> Чтобы поменять его по гарантии?
> И есть ли смысл менять? Верно ли я определил что проц тротлит
> и он виноват в занижении частоты на всех 4 процессорах и
> потере процессорного времени?
> Дело в том , что расчеты могут ставиться в ночь или на
> двое суток - не хотелось бы чтобы чип сдох в тот
> момент, когда рядом никого не было.

Пирометром

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

12. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 26-Ноя-19, 16:29 
> Пирометром

Пока пирометра нет, попробую местами поменять радиаторы.
И замерить температуру.
Может проблема в радиаторе а не в процессоре.
И посмотреть dmesg на предмет throttling

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

2. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от ыы (?), 24-Ноя-19, 23:44 
> E5-4657L v2 2.4 - 2.9 GHz,
> частота ниже номинальной при нагрузке (2693 МГц вместо 2900)

Номинальная частота оного процессора - 2,4 именно на этой частоте рассчитаны тепловые характеристики процессора и его потребляемая мощность. а то что вы увидели там 2,9 - это некий потолок, выше которого этот процессор прыгнуть не может. Разгон до этой частоты происходит автоматически через технологию ТурбоБуст.  
Если имеет место троттлинг - то в систем логе ОС будут записи.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от DiabloPC (ok), 25-Ноя-19, 11:29 
Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все ядра одновременно оно и не должно до таких частот разгонять  


Ответить | Правка | ^ к родителю #2 | Наверх | Cообщить модератору

4. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 25-Ноя-19, 11:50 
> Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
> ядра одновременно оно и не должно до таких частот разгонять

1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
Я поискал в интернете эту информацию, но нашел только инфу о логе использования ЦП во времени, но не по частоте. Или там должно быть сообщение типа: "Hi, user! I'm  throttling now..." :)

2. Но почему тогда один процессор перегревается до +84 ( три другие имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая, а +92 - как критическая?

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Как физически вычислить процессор, который тротлит?"  +1 +/
Сообщение от ыы (?), 25-Ноя-19, 11:59 
>> Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
>> ядра одновременно оно и не должно до таких частот разгонять
> 1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
>>>Если имеет место троттлинг - то в систем логе ОС будут записи. <<<<

ну..эээ... попробуем так:

If there is a trottling - that in the system log of OS there will be records.


> Я поискал в интернете эту информацию, но нашел только инфу о логе
> использования ЦП во времени, но не по частоте. Или там должно
> быть сообщение типа: "Hi, user! I'm  throttling now..." :)

да, так и будет написано


> 2. Но почему тогда один процессор перегревается до +84 ( три другие
> имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая,
> а +92 - как критическая?

Потому что однопоточная задача...

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

8. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 25-Ноя-19, 12:34 
> Потому что однопоточная задача...

stress --cpu 96    - многопоточная стрессовая нагрузка на все 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у ядер проблемного ЦПУ тоже разная.  

Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

9. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от ыы (?), 25-Ноя-19, 13:30 
>> Потому что однопоточная задача...
> stress --cpu 96    - многопоточная стрессовая нагрузка на все
> 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у
> ядер проблемного ЦПУ тоже разная.

открыть консоль
набрать top
нажать 1
будет показана загрузка по каждому из процессоров
открыть еще консоль
запустить stress
подождать минуту

что должно быть:
ни одно ядро не загружено в реальности на 100% и загрузка на каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.

если же одно из ядер будет все таки загружено на 100% - значит или имеет место однопоточное выполнение чегото именно на этом ядре.

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

10. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 25-Ноя-19, 13:41 
>[оверквотинг удален]
> нажать 1
> будет показана загрузка по каждому из процессоров
> открыть еще консоль
> запустить stress
> подождать минуту
> что должно быть:
> ни одно ядро не загружено в реальности на 100% и загрузка на
> каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
> если же одно из ядер будет все таки загружено на 100% -
> значит или имеет место однопоточное выполнение чегото именно на этом ядре.

Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на все 96 потоков, проверено, стабильно и в течении всего времени выполнения stress.

Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

11. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от ыы (?), 25-Ноя-19, 13:45 
>[оверквотинг удален]
>> запустить stress
>> подождать минуту
>> что должно быть:
>> ни одно ядро не загружено в реальности на 100% и загрузка на
>> каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
>> если же одно из ядер будет все таки загружено на 100% -
>> значит или имеет место однопоточное выполнение чегото именно на этом ядре.
> Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на
> все 96 потоков, проверено, стабильно и в течении всего времени выполнения
> stress.

В этом и проблема.

Ответить | Правка | ^ к родителю #10 | Наверх | Cообщить модератору

6. "Как физически вычислить процессор, который тротлит?"  +1 +/
Сообщение от DiabloPC (ok), 25-Ноя-19, 12:09 
> какой лог смотреть чтобы увидеть что проц тротлит?

dmesg

grep'ать по ключевому "throttled"
Полное сообщение должно выглядеть вот так:
> Package temperature above threshold, cpu clock throttled

Ответить | Правка | ^ к родителю #4 | Наверх | Cообщить модератору

7. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 25-Ноя-19, 12:32 
>> какой лог смотреть чтобы увидеть что проц тротлит?
> dmesg
> grep'ать по ключевому "throttled"
> Полное сообщение должно выглядеть вот так:
>> Package temperature above threshold, cpu clock throttled

Спасибо большое, протестирую еще раз.

Ответить | Правка | ^ к родителю #6 | Наверх | Cообщить модератору

13. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Аноним (13), 26-Ноя-19, 18:51 
Тротлинг и снижение частоты это разные механизмы. Но результат у них один - снижение производительности и тепловыделения.
Если процессор начинает именно тротлинг об этом будет запись в дмесг, если процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не найдете, ибо это штатная работа и предупреждать о ней не нужно. Можете мониторить частоты по ядрам.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

14. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 27-Ноя-19, 14:41 
> Тротлинг и снижение частоты это разные механизмы. Но результат у них один
> - снижение производительности и тепловыделения.
> Если процессор начинает именно тротлинг об этом будет запись в дмесг, если
> процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не
> найдете, ибо это штатная работа и предупреждать о ней не нужно.
> Можете мониторить частоты по ядрам.

Сегодня я решил поменять по часовой стрелке все 4 радиатора.
И дать нагрузку stress --cpu 96
В результате грелся все тот же процессор
cortemp-isa-0001
Adapter: ISA adapter
Перестановка радиаторов никак не повлеяла на работу ЦП.
На проблемном ЦП темперутура +84, на трех других +59...64 под полной нагрузкой.
Тактовая частота 2693 МГц на всех ЦП.
sudo dmesg | grep throttling ничего не выдал ни под нагрузкой ни после нее.

Т.е. троттлинга нет, но проц греется?
Почему???  

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

15. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от DiabloPC (ok), 27-Ноя-19, 16:29 
> Т.е. троттлинга нет

Что вполне логично, т.к тротлить он должен при критической температуре.

> но проц греется Почему???

Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике проца; косое крепление радиатора (да, тоже может быть), если что-то из этого окажется правдой - это гарантийный случай. С процом может быть много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к, хоть и не так как другие, но работает в штатном режиме и доказать брак (если он там вообще имеется) маловероятно.

Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу процы.

Да, вот ещё что в голову приходит: а как в корпусе организовано охлаждение? Возможно один из них банально хуже охлаждается?

Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но по идее на материнке сокеты должны быть пронумерованы и порядок нумерации должен совпадать вот с этим выхлопом :
> cortemp-isa-0001
> cortemp-isa-0002
> И т.д

Ззы
> sudo dmesg | grep throttling

Не то грепаешь, посмотри внимательно.

Ответить | Правка | ^ к родителю #14 | Наверх | Cообщить модератору

16. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 27-Ноя-19, 16:44 
>[оверквотинг удален]
> Что вполне логично, т.к тротлить он должен при критической температуре.
>> но проц греется Почему???
> Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике
> проца; косое крепление радиатора (да, тоже может быть), если что-то из
> этого окажется правдой - это гарантийный случай. С процом может быть
> много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к,
> хоть и не так как другие, но работает в штатном режиме
> и доказать брак (если он там вообще имеется) маловероятно.
> Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу
> процы.

попробуем переставить процы.
косяков в установке радиаторов вроде не наблюдлось.

> Да, вот ещё что в голову приходит: а как в корпусе организовано
> охлаждение? Возможно один из них банально хуже охлаждается?

6 или 7 куллеров турбинок гонят воздух извне под пласиковый прозрачный кожух, под которым стоят параллельно потоку воздуха ребристые радиаторы на 3 медных трубках.

> Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но
> по идее на материнке сокеты должны быть пронумерованы и порядок нумерации
> должен совпадать вот с этим выхлопом :
>> cortemp-isa-0001
>> cortemp-isa-0002
>> И т.д

Спасибо, если что - обращусь.

> Ззы
>> sudo dmesg | grep throttling
> Не то грепаешь, посмотри внимательно.

А что нужно грепать? Какой параметр или слово искать в dmesg?

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

17. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от DiabloPC (ok), 27-Ноя-19, 17:07 
> А что нужно грепать? Какой параметр или слово искать в dmesg?

Не throttling, а throttled

Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

18. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 27-Ноя-19, 19:09 
>> А что нужно грепать? Какой параметр или слово искать в dmesg?
> Не throttling, а throttled

Я пробовал грепать throttl , тоже ничего в логах нет.
И отображение при помощи watch grep MHz /proc/cpuinfo  показывало 2693 МГц без просадок.

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

19. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от DiabloPC (ok), 28-Ноя-19, 10:10 
> Я пробовал грепать throttl , тоже ничего в логах нет.
> И отображение при помощи watch grep MHz /proc/cpuinfo  показывало 2693 МГц
> без просадок.

Ну значит тротлинга таки нету.
попробовать переставить процы по кругу, если греться будет тот-же проц, а не другой проц в том-же слоте, то забить на это и спокойно пользоваться.

Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

20. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от Isothiocyanate (ok), 29-Ноя-19, 15:23 
А ларчик просто открывался...

Оказывается, процессоры имеют радиаторы, и передние два  обдуваются первыми, а с них воздух идет на задние , и они теплее. Один из задних стоит по той стороне что и видеоарта, поэтому он греется сильнее - там в углу "жарче".

Решилась проблема путем установки в биосе больших оборотов куллеров.
Показатели самого жаркого ЦП упали с +84 до +76 под нагрузкой.

Еще в биосе переключили видеокарты: за вывод иображения отвечает встроенная, это дает возможность удаленного доступа с iLO4, а за выполнение графических расчетов - внешняя NVIDIA Quadro.
Дело в том что внешняя видеокарта не давала доступа через  iLO4 к рабочему столу в графическом режиме.

Но есть одно но - не во всех приложениях можно настроить использование внешней видеокарты.
Зато с увеличением оборотов куллеров звук стал вместо визжащего более низким и шуршащим при нагрузке.  


Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

21. "Как физически вычислить процессор, который тротлит?"  +/
Сообщение от DiabloPC (ok), 29-Ноя-19, 17:13 
> Один из задних стоит по той стороне что и видеоарта, поэтому он греется сильнее - там в углу "жарче".

Ну а я что ж имел ввиду когда спрашивал о том как организовано охлаждение ;)

Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Слёрм
Inferno Solutions
Hosting by Ihor
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2019 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру