Доброго времени суток!Есть сервер HP ProLiant DL560 8gen, на нем 4 процессора E5-4657L v2 2.4 - 2.9 GHz, 12 core +HT, и линукс debian. Для мониторинга работы системы - iLO4.
В процессе расчетов на сервере была потеря процессорного времени от 16 до 20%.
Решил промонитроить частоту и температуру - оказывается частота ниже номинальной при нагрузке (2693 МГц вместо 2900), а температура одного проца выше чем других (82С по сравнению с 76-78 на трех других).Эти данные я получал в таких условиях:
нагрузка stress --cpu 96
анализ загрузки ядер ЦП sudo htop
анализ текущей частоты ЦП watch grep MHz /proc/cpuinfo
анализ температуры
1. sensors из-под ОС
2. соответсвующий раздел в iLO4Следует отметить, что данные по температуре в iLO4 были на 30 градусов ниже чем в ОС и была температура 56 когда sensors показывал 82 на одном проце. Причем в iLO4 температура была почти одинакова для всех ЦП.
Поискав в интеренете как бороться с тротлингом , я решил поменять термопасту - на Arctic MX-4, сделал все аккуратно, поменял.
В итоге на всех ЦП по данным sensors температура под нагрузкой была 68-72C, а на проблемном + 82-84C (high +82, crit +92).
Все куллеры работают нормально, пластиковый чехол для направления потока воздуха на месте.
Частота быстро падала с 2.9 до 2.6 ГГц.Проблемный процессор в sensors имеет следующие "координаты"
cortemp-isa-0001
Adapter: ISA adapter
Package ID 1: +84C (high +82, crit +92)
.......Как вычислить, где он стоит физически?
Чтобы поменять его по гарантии?
И есть ли смысл менять? Верно ли я определил что проц тротлит и он виноват в занижении частоты на всех 4 процессорах и потере процессорного времени?Дело в том , что расчеты могут ставиться в ночь или на двое суток - не хотелось бы чтобы чип сдох в тот момент, когда рядом никого не было.
>[оверквотинг удален]
> Package ID 1: +84C (high +82, crit +92)
> .......
> Как вычислить, где он стоит физически?
> Чтобы поменять его по гарантии?
> И есть ли смысл менять? Верно ли я определил что проц тротлит
> и он виноват в занижении частоты на всех 4 процессорах и
> потере процессорного времени?
> Дело в том , что расчеты могут ставиться в ночь или на
> двое суток - не хотелось бы чтобы чип сдох в тот
> момент, когда рядом никого не было.Пирометром
> ПирометромПока пирометра нет, попробую местами поменять радиаторы.
И замерить температуру.
Может проблема в радиаторе а не в процессоре.
И посмотреть dmesg на предмет throttling
> E5-4657L v2 2.4 - 2.9 GHz,
> частота ниже номинальной при нагрузке (2693 МГц вместо 2900)Номинальная частота оного процессора - 2,4 именно на этой частоте рассчитаны тепловые характеристики процессора и его потребляемая мощность. а то что вы увидели там 2,9 - это некий потолок, выше которого этот процессор прыгнуть не может. Разгон до этой частоты происходит автоматически через технологию ТурбоБуст.
Если имеет место троттлинг - то в систем логе ОС будут записи.
Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все ядра одновременно оно и не должно до таких частот разгонять
> Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
> ядра одновременно оно и не должно до таких частот разгонять1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
Я поискал в интернете эту информацию, но нашел только инфу о логе использования ЦП во времени, но не по частоте. Или там должно быть сообщение типа: "Hi, user! I'm throttling now..." :)2. Но почему тогда один процессор перегревается до +84 ( три другие имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая, а +92 - как критическая?
>> Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
>> ядра одновременно оно и не должно до таких частот разгонять
> 1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
>>>Если имеет место троттлинг - то в систем логе ОС будут записи. <<<<ну..эээ... попробуем так:
If there is a trottling - that in the system log of OS there will be records.
> Я поискал в интернете эту информацию, но нашел только инфу о логе
> использования ЦП во времени, но не по частоте. Или там должно
> быть сообщение типа: "Hi, user! I'm throttling now..." :)да, так и будет написано
> 2. Но почему тогда один процессор перегревается до +84 ( три другие
> имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая,
> а +92 - как критическая?Потому что однопоточная задача...
> Потому что однопоточная задача...stress --cpu 96 - многопоточная стрессовая нагрузка на все 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у ядер проблемного ЦПУ тоже разная.
>> Потому что однопоточная задача...
> stress --cpu 96 - многопоточная стрессовая нагрузка на все
> 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у
> ядер проблемного ЦПУ тоже разная.открыть консоль
набрать top
нажать 1
будет показана загрузка по каждому из процессоров
открыть еще консоль
запустить stress
подождать минутучто должно быть:
ни одно ядро не загружено в реальности на 100% и загрузка на каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.если же одно из ядер будет все таки загружено на 100% - значит или имеет место однопоточное выполнение чегото именно на этом ядре.
>[оверквотинг удален]
> нажать 1
> будет показана загрузка по каждому из процессоров
> открыть еще консоль
> запустить stress
> подождать минуту
> что должно быть:
> ни одно ядро не загружено в реальности на 100% и загрузка на
> каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
> если же одно из ядер будет все таки загружено на 100% -
> значит или имеет место однопоточное выполнение чегото именно на этом ядре.Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на все 96 потоков, проверено, стабильно и в течении всего времени выполнения stress.
>[оверквотинг удален]
>> запустить stress
>> подождать минуту
>> что должно быть:
>> ни одно ядро не загружено в реальности на 100% и загрузка на
>> каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
>> если же одно из ядер будет все таки загружено на 100% -
>> значит или имеет место однопоточное выполнение чегото именно на этом ядре.
> Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на
> все 96 потоков, проверено, стабильно и в течении всего времени выполнения
> stress.В этом и проблема.
> какой лог смотреть чтобы увидеть что проц тротлит?dmesg
grep'ать по ключевому "throttled"
Полное сообщение должно выглядеть вот так:
> Package temperature above threshold, cpu clock throttled
>> какой лог смотреть чтобы увидеть что проц тротлит?
> dmesg
> grep'ать по ключевому "throttled"
> Полное сообщение должно выглядеть вот так:
>> Package temperature above threshold, cpu clock throttledСпасибо большое, протестирую еще раз.
Тротлинг и снижение частоты это разные механизмы. Но результат у них один - снижение производительности и тепловыделения.
Если процессор начинает именно тротлинг об этом будет запись в дмесг, если процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не найдете, ибо это штатная работа и предупреждать о ней не нужно. Можете мониторить частоты по ядрам.
> Тротлинг и снижение частоты это разные механизмы. Но результат у них один
> - снижение производительности и тепловыделения.
> Если процессор начинает именно тротлинг об этом будет запись в дмесг, если
> процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не
> найдете, ибо это штатная работа и предупреждать о ней не нужно.
> Можете мониторить частоты по ядрам.Сегодня я решил поменять по часовой стрелке все 4 радиатора.
И дать нагрузку stress --cpu 96
В результате грелся все тот же процессор
cortemp-isa-0001
Adapter: ISA adapter
Перестановка радиаторов никак не повлеяла на работу ЦП.
На проблемном ЦП темперутура +84, на трех других +59...64 под полной нагрузкой.
Тактовая частота 2693 МГц на всех ЦП.
sudo dmesg | grep throttling ничего не выдал ни под нагрузкой ни после нее.Т.е. троттлинга нет, но проц греется?
Почему???
> Т.е. троттлинга нетЧто вполне логично, т.к тротлить он должен при критической температуре.
> но проц греется Почему???
Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике проца; косое крепление радиатора (да, тоже может быть), если что-то из этого окажется правдой - это гарантийный случай. С процом может быть много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к, хоть и не так как другие, но работает в штатном режиме и доказать брак (если он там вообще имеется) маловероятно.
Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу процы.
Да, вот ещё что в голову приходит: а как в корпусе организовано охлаждение? Возможно один из них банально хуже охлаждается?
Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но по идее на материнке сокеты должны быть пронумерованы и порядок нумерации должен совпадать вот с этим выхлопом :
> cortemp-isa-0001
> cortemp-isa-0002
> И т.дЗзы
> sudo dmesg | grep throttlingНе то грепаешь, посмотри внимательно.
>[оверквотинг удален]
> Что вполне логично, т.к тротлить он должен при критической температуре.
>> но проц греется Почему???
> Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике
> проца; косое крепление радиатора (да, тоже может быть), если что-то из
> этого окажется правдой - это гарантийный случай. С процом может быть
> много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к,
> хоть и не так как другие, но работает в штатном режиме
> и доказать брак (если он там вообще имеется) маловероятно.
> Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу
> процы.попробуем переставить процы.
косяков в установке радиаторов вроде не наблюдлось.> Да, вот ещё что в голову приходит: а как в корпусе организовано
> охлаждение? Возможно один из них банально хуже охлаждается?6 или 7 куллеров турбинок гонят воздух извне под пласиковый прозрачный кожух, под которым стоят параллельно потоку воздуха ребристые радиаторы на 3 медных трубках.
> Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но
> по идее на материнке сокеты должны быть пронумерованы и порядок нумерации
> должен совпадать вот с этим выхлопом :
>> cortemp-isa-0001
>> cortemp-isa-0002
>> И т.дСпасибо, если что - обращусь.
> Ззы
>> sudo dmesg | grep throttling
> Не то грепаешь, посмотри внимательно.А что нужно грепать? Какой параметр или слово искать в dmesg?
> А что нужно грепать? Какой параметр или слово искать в dmesg?Не throttling, а throttled
>> А что нужно грепать? Какой параметр или слово искать в dmesg?
> Не throttling, а throttledЯ пробовал грепать throttl , тоже ничего в логах нет.
И отображение при помощи watch grep MHz /proc/cpuinfo показывало 2693 МГц без просадок.
> Я пробовал грепать throttl , тоже ничего в логах нет.
> И отображение при помощи watch grep MHz /proc/cpuinfo показывало 2693 МГц
> без просадок.Ну значит тротлинга таки нету.
попробовать переставить процы по кругу, если греться будет тот-же проц, а не другой проц в том-же слоте, то забить на это и спокойно пользоваться.
А ларчик просто открывался...Оказывается, процессоры имеют радиаторы, и передние два обдуваются первыми, а с них воздух идет на задние , и они теплее. Один из задних стоит по той стороне что и видеоарта, поэтому он греется сильнее - там в углу "жарче".
Решилась проблема путем установки в биосе больших оборотов куллеров.
Показатели самого жаркого ЦП упали с +84 до +76 под нагрузкой.Еще в биосе переключили видеокарты: за вывод иображения отвечает встроенная, это дает возможность удаленного доступа с iLO4, а за выполнение графических расчетов - внешняя NVIDIA Quadro.
Дело в том что внешняя видеокарта не давала доступа через iLO4 к рабочему столу в графическом режиме.Но есть одно но - не во всех приложениях можно настроить использование внешней видеокарты.
Зато с увеличением оборотов куллеров звук стал вместо визжащего более низким и шуршащим при нагрузке.
> Один из задних стоит по той стороне что и видеоарта, поэтому он греется сильнее - там в углу "жарче".Ну а я что ж имел ввиду когда спрашивал о том как организовано охлаждение ;)