The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 23-Ноя-19, 10:30  [смотреть все]
Доброго времени суток!

Есть сервер HP ProLiant DL560 8gen, на нем 4 процессора E5-4657L v2 2.4 - 2.9 GHz, 12 core +HT, и линукс debian. Для мониторинга работы системы - iLO4.
В процессе расчетов на сервере была потеря процессорного времени от 16 до 20%.
Решил промонитроить частоту и температуру - оказывается частота ниже номинальной при нагрузке (2693 МГц вместо 2900), а температура одного проца выше чем других (82С по сравнению с 76-78 на трех других).

Эти данные я получал в таких условиях:
нагрузка stress --cpu 96
анализ загрузки ядер ЦП sudo htop
анализ текущей частоты ЦП watch grep MHz /proc/cpuinfo
анализ температуры
1. sensors из-под ОС
2. соответсвующий раздел в iLO4

Следует отметить, что данные по температуре в iLO4 были на 30 градусов ниже чем в ОС и была температура 56 когда sensors показывал 82 на одном проце. Причем в iLO4 температура была почти одинакова для всех ЦП.

Поискав в интеренете как бороться с тротлингом , я решил поменять термопасту - на Arctic MX-4, сделал все аккуратно, поменял.
В итоге на всех ЦП по данным sensors температура под нагрузкой была 68-72C, а на проблемном + 82-84C  (high +82, crit +92).
Все куллеры работают нормально, пластиковый чехол для направления потока воздуха на месте.
Частота быстро падала с 2.9 до 2.6 ГГц.

Проблемный процессор в sensors имеет следующие "координаты"
cortemp-isa-0001
Adapter: ISA adapter
Package ID 1: +84C  (high +82, crit +92)
.......

Как вычислить, где он стоит физически?
Чтобы поменять его по гарантии?
И есть ли смысл менять? Верно ли я определил что проц тротлит и он виноват в занижении частоты на всех 4 процессорах и потере процессорного времени?

Дело в том , что расчеты могут ставиться в ночь или на двое суток - не хотелось бы чтобы чип сдох в тот момент, когда рядом никого не было.

  • Как физически вычислить процессор, который тротлит?, !*! Фомичев, 12:46 , 23-Ноя-19 (1) +4
    >[оверквотинг удален]
    > Package ID 1: +84C  (high +82, crit +92)
    > .......
    > Как вычислить, где он стоит физически?
    > Чтобы поменять его по гарантии?
    > И есть ли смысл менять? Верно ли я определил что проц тротлит
    > и он виноват в занижении частоты на всех 4 процессорах и
    > потере процессорного времени?
    > Дело в том , что расчеты могут ставиться в ночь или на
    > двое суток - не хотелось бы чтобы чип сдох в тот
    > момент, когда рядом никого не было.

    Пирометром

  • Как физически вычислить процессор, который тротлит?, !*! ыы, 23:44 , 24-Ноя-19 (2)
    > E5-4657L v2 2.4 - 2.9 GHz,
    > частота ниже номинальной при нагрузке (2693 МГц вместо 2900)

    Номинальная частота оного процессора - 2,4 именно на этой частоте рассчитаны тепловые характеристики процессора и его потребляемая мощность. а то что вы увидели там 2,9 - это некий потолок, выше которого этот процессор прыгнуть не может. Разгон до этой частоты происходит автоматически через технологию ТурбоБуст.  
    Если имеет место троттлинг - то в систем логе ОС будут записи.

    • Как физически вычислить процессор, который тротлит?, !*! DiabloPC, 11:29 , 25-Ноя-19 (3)
      Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все ядра одновременно оно и не должно до таких частот разгонять  


      • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 11:50 , 25-Ноя-19 (4)
        > Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
        > ядра одновременно оно и не должно до таких частот разгонять

        1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
        Я поискал в интернете эту информацию, но нашел только инфу о логе использования ЦП во времени, но не по частоте. Или там должно быть сообщение типа: "Hi, user! I'm  throttling now..." :)

        2. Но почему тогда один процессор перегревается до +84 ( три другие имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая, а +92 - как критическая?

        • Как физически вычислить процессор, который тротлит?, !*! ыы, 11:59 , 25-Ноя-19 (5) +1
          >> Мало того, так максимальные 2.9 у него заявлены при однопотоке, т.е все
          >> ядра одновременно оно и не должно до таких частот разгонять
          > 1. Как посмотреть и какой лог смотреть чтобы увидеть что проц тротлит?
          >>>Если имеет место троттлинг - то в систем логе ОС будут записи. <<<<

          ну..эээ... попробуем так:

          If there is a trottling - that in the system log of OS there will be records.


          > Я поискал в интернете эту информацию, но нашел только инфу о логе
          > использования ЦП во времени, но не по частоте. Или там должно
          > быть сообщение типа: "Hi, user! I'm  throttling now..." :)

          да, так и будет написано


          > 2. Но почему тогда один процессор перегревается до +84 ( три другие
          > имеют температуру 68-72) тогда как температура +82 уже заявлена как высокая,
          > а +92 - как критическая?

          Потому что однопоточная задача...

          • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 12:34 , 25-Ноя-19 (8)
            > Потому что однопоточная задача...

            stress --cpu 96    - многопоточная стрессовая нагрузка на все 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у ядер проблемного ЦПУ тоже разная.  

            • Как физически вычислить процессор, который тротлит?, !*! ыы, 13:30 , 25-Ноя-19 (9)
              >> Потому что однопоточная задача...
              > stress --cpu 96    - многопоточная стрессовая нагрузка на все
              > 96 потоков 48 ядер 4 ЦП. Вроде как. Но температура у
              > ядер проблемного ЦПУ тоже разная.

              открыть консоль
              набрать top
              нажать 1
              будет показана загрузка по каждому из процессоров
              открыть еще консоль
              запустить stress
              подождать минуту

              что должно быть:
              ни одно ядро не загружено в реальности на 100% и загрузка на каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.

              если же одно из ядер будет все таки загружено на 100% - значит или имеет место однопоточное выполнение чегото именно на этом ядре.

              • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 13:41 , 25-Ноя-19 (10)
                >[оверквотинг удален]
                > нажать 1
                > будет показана загрузка по каждому из процессоров
                > открыть еще консоль
                > запустить stress
                > подождать минуту
                > что должно быть:
                > ни одно ядро не загружено в реальности на 100% и загрузка на
                > каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
                > если же одно из ядер будет все таки загружено на 100% -
                > значит или имеет место однопоточное выполнение чегото именно на этом ядре.

                Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на все 96 потоков, проверено, стабильно и в течении всего времени выполнения stress.

                • Как физически вычислить процессор, который тротлит?, !*! ыы, 13:45 , 25-Ноя-19 (11)
                  >[оверквотинг удален]
                  >> запустить stress
                  >> подождать минуту
                  >> что должно быть:
                  >> ни одно ядро не загружено в реальности на 100% и загрузка на
                  >> каждом из них разная. соответственно мгновенные показания температуры будут тоже разными.
                  >> если же одно из ядер будет все таки загружено на 100% -
                  >> значит или имеет место однопоточное выполнение чегото именно на этом ядре.
                  > Использование htop было указано в стартовом сообщении топика. Загрузка на 100% на
                  > все 96 потоков, проверено, стабильно и в течении всего времени выполнения
                  > stress.

                  В этом и проблема.

        • Как физически вычислить процессор, который тротлит?, !*! DiabloPC, 12:09 , 25-Ноя-19 (6) +1
          > какой лог смотреть чтобы увидеть что проц тротлит?

          dmesg

          grep'ать по ключевому "throttled"
          Полное сообщение должно выглядеть вот так:
          > Package temperature above threshold, cpu clock throttled

  • Как физически вычислить процессор, который тротлит?, !*! Аноним, 18:51 , 26-Ноя-19 (13)
    Тротлинг и снижение частоты это разные механизмы. Но результат у них один - снижение производительности и тепловыделения.
    Если процессор начинает именно тротлинг об этом будет запись в дмесг, если процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не найдете, ибо это штатная работа и предупреждать о ней не нужно. Можете мониторить частоты по ядрам.
    • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 14:41 , 27-Ноя-19 (14)
      > Тротлинг и снижение частоты это разные механизмы. Но результат у них один
      > - снижение производительности и тепловыделения.
      > Если процессор начинает именно тротлинг об этом будет запись в дмесг, если
      > процессор просто сбрасывает частоту турбобуст то ничего и нигде вы не
      > найдете, ибо это штатная работа и предупреждать о ней не нужно.
      > Можете мониторить частоты по ядрам.

      Сегодня я решил поменять по часовой стрелке все 4 радиатора.
      И дать нагрузку stress --cpu 96
      В результате грелся все тот же процессор
      cortemp-isa-0001
      Adapter: ISA adapter
      Перестановка радиаторов никак не повлеяла на работу ЦП.
      На проблемном ЦП темперутура +84, на трех других +59...64 под полной нагрузкой.
      Тактовая частота 2693 МГц на всех ЦП.
      sudo dmesg | grep throttling ничего не выдал ни под нагрузкой ни после нее.

      Т.е. троттлинга нет, но проц греется?
      Почему???  

      • Как физически вычислить процессор, который тротлит?, !*! DiabloPC, 16:29 , 27-Ноя-19 (15)
        > Т.е. троттлинга нет

        Что вполне логично, т.к тротлить он должен при критической температуре.

        > но проц греется Почему???

        Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике проца; косое крепление радиатора (да, тоже может быть), если что-то из этого окажется правдой - это гарантийный случай. С процом может быть много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к, хоть и не так как другие, но работает в штатном режиме и доказать брак (если он там вообще имеется) маловероятно.

        Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу процы.

        Да, вот ещё что в голову приходит: а как в корпусе организовано охлаждение? Возможно один из них банально хуже охлаждается?

        Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но по идее на материнке сокеты должны быть пронумерованы и порядок нумерации должен совпадать вот с этим выхлопом :
        > cortemp-isa-0001
        > cortemp-isa-0002
        > И т.д

        Ззы
        > sudo dmesg | grep throttling

        Не то грепаешь, посмотри внимательно.

        • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 16:44 , 27-Ноя-19 (16)
          >[оверквотинг удален]
          > Что вполне логично, т.к тротлить он должен при критической температуре.
          >> но проц греется Почему???
          > Здесь либо мать либо проц. Возможные проблемы с матью: косяки в питальнике
          > проца; косое крепление радиатора (да, тоже может быть), если что-то из
          > этого окажется правдой - это гарантийный случай. С процом может быть
          > много вариантов, но таки по гарантии он маловероятно что пойдёт, т.к,
          > хоть и не так как другие, но работает в штатном режиме
          > и доказать брак (если он там вообще имеется) маловероятно.
          > Проверить нету ли описаных косяков с материнкой можно просто переставив по кругу
          > процы.

          попробуем переставить процы.
          косяков в установке радиаторов вроде не наблюдлось.

          > Да, вот ещё что в голову приходит: а как в корпусе организовано
          > охлаждение? Возможно один из них банально хуже охлаждается?

          6 или 7 куллеров турбинок гонят воздух извне под пласиковый прозрачный кожух, под которым стоят параллельно потоку воздуха ребристые радиаторы на 3 медных трубках.

          > Зы. Пирометр могу дать на поганять (если что, возле дворца Украина), но
          > по идее на материнке сокеты должны быть пронумерованы и порядок нумерации
          > должен совпадать вот с этим выхлопом :
          >> cortemp-isa-0001
          >> cortemp-isa-0002
          >> И т.д

          Спасибо, если что - обращусь.

          > Ззы
          >> sudo dmesg | grep throttling
          > Не то грепаешь, посмотри внимательно.

          А что нужно грепать? Какой параметр или слово искать в dmesg?

          • Как физически вычислить процессор, который тротлит?, !*! DiabloPC, 17:07 , 27-Ноя-19 (17)
            > А что нужно грепать? Какой параметр или слово искать в dmesg?

            Не throttling, а throttled

            • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 19:09 , 27-Ноя-19 (18)
              >> А что нужно грепать? Какой параметр или слово искать в dmesg?
              > Не throttling, а throttled

              Я пробовал грепать throttl , тоже ничего в логах нет.
              И отображение при помощи watch grep MHz /proc/cpuinfo  показывало 2693 МГц без просадок.

              • Как физически вычислить процессор, который тротлит?, !*! DiabloPC, 10:10 , 28-Ноя-19 (19)
                > Я пробовал грепать throttl , тоже ничего в логах нет.
                > И отображение при помощи watch grep MHz /proc/cpuinfo  показывало 2693 МГц
                > без просадок.

                Ну значит тротлинга таки нету.
                попробовать переставить процы по кругу, если греться будет тот-же проц, а не другой проц в том-же слоте, то забить на это и спокойно пользоваться.

                • Как физически вычислить процессор, который тротлит?, !*! Isothiocyanate, 15:23 , 29-Ноя-19 (20)
                  А ларчик просто открывался...

                  Оказывается, процессоры имеют радиаторы, и передние два  обдуваются первыми, а с них воздух идет на задние , и они теплее. Один из задних стоит по той стороне что и видеоарта, поэтому он греется сильнее - там в углу "жарче".

                  Решилась проблема путем установки в биосе больших оборотов куллеров.
                  Показатели самого жаркого ЦП упали с +84 до +76 под нагрузкой.

                  Еще в биосе переключили видеокарты: за вывод иображения отвечает встроенная, это дает возможность удаленного доступа с iLO4, а за выполнение графических расчетов - внешняя NVIDIA Quadro.
                  Дело в том что внешняя видеокарта не давала доступа через  iLO4 к рабочему столу в графическом режиме.

                  Но есть одно но - не во всех приложениях можно настроить использование внешней видеокарты.
                  Зато с увеличением оборотов куллеров звук стал вместо визжащего более низким и шуршащим при нагрузке.  





Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру