URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 91637
[ Назад ]

Исходное сообщение
"определить из-за чего перегружается"

Отправлено v1n1 , 25-Май-11 09:21 
FreeBSD 8.1. Apache+Mysql+Php+Exim+Dovecot.
Я так думаю что перегружается, поскольку сервер перестает пинговаться, а когда смотришь локально то вылазит либо
bad_directory
либо vas not properly dismounted и ругается на какую либо партицию.
Делаю fsck -y
Находит кучу INCORRECT BLOCK и прочей гадости. Перегружаю - всё работает в штатном режиме. Но работает сутки, двое или неделю и история повторяется. С питанием проблем нет, т.к. сервер находится на co-location и рядом стоит еще один, который вполне сносно работает.

Вот пример из /var/log/messages

May 24 18:04:05 press named[766]: clients-per-query decreased to 10
May 24 18:30:06 press named[766]: client 178.238.65.26#42195: update forwarding 'Buhgalter.KZ/IN' denied
May 24 18:30:06 press last message repeated 2 times
May 24 23:09:20 press kernel: g
May 24 23:18:29 press named[766]: clients-per-query increased to 15
May 24 23:29:23 press syslogd: kernel boot file is /boot/kernel/kernel
May 24 23:29:23 press kernel: Copyright (c) 1992-2010 The FreeBSD Project.


Я так понял, что сервер был в дауне 4 с половиной часа. А из-за чего - не пойму. Подобное было уже, но там вылечилось установкой второго БП. Здесь же сразу два установлено. Может у кого есть мысли - где позырить проблему?


Содержание

Сообщения в этом обсуждении
"определить из-за чего перегружается"
Отправлено PavelR , 25-Май-11 09:57 
почистить, тестить железо.

"определить из-за чего перегружается"
Отправлено v1n1 , 25-Май-11 10:09 
> почистить, тестить железо.

Чего именно чистить?
Пока ставлю munin...


"определить из-за чего перегружается"
Отправлено FValeriy , 27-Май-11 11:15 
А я считаю, что скорее всего проблема программная, потому что если бы дело было в серверном железе, уже в POST был-бы какой то сигнал. А что за сервер? Форм-фактор, производитель? http://www.nstor.ru/ru/catalog/vendor_catalog/server_ibm.html ?


"определить из-за чего перегружается"
Отправлено EvgenD , 27-Май-11 21:43 
Я так думаю что перегружается, поскольку сервер перестает пинговаться, а когда смотришь локально то вылазит либо
bad_directory
либо vas not properly dismounted и ругается на какую либо партицию.
Делаю fsck -y

По моему тебе пора менять винт. Или прогани что то типа MHDD, что нибудь может увидишь. Все таки чтоб фря сама перезагружалась надо самому накосячить не хило. Сначала железо смотри, если в прямизне рук своих уверен конечно.


"определить из-за чего перегружается"
Отправлено universite , 28-Май-11 04:29 

> По моему тебе пора менять винт. Или прогани что то типа MHDD,
> что нибудь может увидишь. Все таки чтоб фря сама перезагружалась надо
> самому накосячить не хило. Сначала железо смотри, если в прямизне рук
> своих уверен конечно.

Присоединяюсь к мнению.
После тщательной проверки винта искать следующие проблемные узлы - кондеры на материнской плате и БП.


"определить из-за чего перегружается"
Отправлено fcuku , 04-Июн-11 07:16 
> кондеры на материнской плате и БП.

Опередили меня.


"определить из-за чего перегружается"
Отправлено fcuku , 04-Июн-11 07:20 
> если бы
> дело было в серверном железе, уже в POST был-бы какой то
> сигнал.

Там один "сигнал": вскрытыие показывает, что шлейфы ОБУГЛИЛИСЬ :) :) :)
И НИЧЕГО в логах :) :) :)



"определить из-за чего перегружается"
Отправлено fcuku , 04-Июн-11 07:14 
>> почистить, тестить железо.
> Чего именно чистить?
> Пока ставлю munin...

Вентиляторы.
Все признаки тупого перегрева.
Возможно, от перегрева пересохли конденсаторы на маме.
А это уже навсегда.
Решается только перепайкой. Лучше в специализирующемся на ремонте мам СЦ.


"определить из-за чего перегружается"
Отправлено v1n1 , 05-Июн-11 08:46 
>>> почистить, тестить железо.
>> Чего именно чистить?
>> Пока ставлю munin...
> Вентиляторы.
> Все признаки тупого перегрева.
> Возможно, от перегрева пересохли конденсаторы на маме.
> А это уже навсегда.
> Решается только перепайкой. Лучше в специализирующемся на ремонте мам СЦ.

Как бы серверу 1,5-2 месяца от силы. Температура процов 35 по цельсию. Сервер находится в гермозоне... Сам думал в эту сторону, но отказался от таких мыслей


"определить из-за чего перегружается"
Отправлено v1n1 , 03-Июн-11 08:42 
Теперь вылазит

kern.maxfiles limit exceeded by uid 26, please see tuning(7)

Опять выходит на харды грешить надо


"определить из-за чего перегружается"
Отправлено PavelR , 03-Июн-11 12:53 
> Теперь вылазит
> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
> Опять выходит на харды грешить надо

Фантастическая логика.


"определить из-за чего перегружается"
Отправлено v1n1 , 05-Июн-11 08:43 
>> Теперь вылазит
>> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
>> Опять выходит на харды грешить надо
> Фантастическая логика.

Забыл добавить. kern.maxfiles был 20000
Думаете недостаточно?


"определить из-за чего перегружается"
Отправлено PavelR , 05-Июн-11 10:53 
>>> Теперь вылазит
>>> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
>>> Опять выходит на харды грешить надо
>> Фантастическая логика.
> Забыл добавить. kern.maxfiles был 20000
> Думаете недостаточно?

$ id 26
uid=26(mailnull) gid=26(mailnull) groups=26(mailnull)

что-то связанное с почтой ? посмотрите в её логи.


"определить из-за чего перегружается"
Отправлено v1n1 , 05-Июн-11 20:52 
>>>> Теперь вылазит
>>>> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
>>>> Опять выходит на харды грешить надо
>>> Фантастическая логика.
>> Забыл добавить. kern.maxfiles был 20000
>> Думаете недостаточно?
> $ id 26
> uid=26(mailnull) gid=26(mailnull) groups=26(mailnull)
> что-то связанное с почтой ? посмотрите в её логи.

Угу, exim это. В логах всё штатно


"определить из-за чего перегружается"
Отправлено EvgenD , 03-Июн-11 23:09 
> Теперь вылазит
> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
> Опять выходит на харды грешить надо

Все таки надо бы посмотреть и оценить кривизну рук. Смотри - http://www.freebsd.org/doc/ru_RU.KOI8-R/books/handbook/confi...


"определить из-за чего перегружается"
Отправлено v1n1 , 05-Июн-11 08:44 
>> Теперь вылазит
>> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
>> Опять выходит на харды грешить надо
> Все таки надо бы посмотреть и оценить кривизну рук. Смотри - http://www.freebsd.org/doc/ru_RU.KOI8-R/books/handbook/confi...

Поставил ulimit 500. Пока вроде в порядке. Судя по мунину, в критические моменты своп на максимуме. Или наеборот - сам момент наступает из-за того, что своп доходит до максимума.


"определить из-за чего перегружается"
Отправлено proTT , 05-Июн-11 10:40 
>>> Теперь вылазит
>>> kern.maxfiles limit exceeded by uid 26, please see tuning(7)
>>> Опять выходит на харды грешить надо
>> Все таки надо бы посмотреть и оценить кривизну рук. Смотри - http://www.freebsd.org/doc/ru_RU.KOI8-R/books/handbook/confi...
> Поставил ulimit 500. Пока вроде в порядке. Судя по мунину, в критические
> моменты своп на максимуме. Или наеборот - сам момент наступает из-за
> того, что своп доходит до максимума.

харды 100%


"определить из-за чего перегружается"
Отправлено v1n1 , 10-Июн-11 08:38 
Отключил fsck в бэкграунде, вылезла такая гадость:

http://s41.radikal.ru/i094/1106/a6/73a42f29dde2.jpg

в /etc/login.conf поставил

:datasize=1048576 kB
:stacksize=65536
:filesize=4194304 kB
:openfiles=1199
:maxproc=666


Жду результатов. Вернее надеюсь что уладится. Кстати, после перезагрзки ulimit уходит в unlimited


"определить из-за чего перегружается"
Отправлено v1n1 , 10-Июн-11 13:08 
Еще в /var/log/messages вылазит вот такая гадость:

Jun 10 14:14:36 press kernel: 1<1<11188>18
Jun 10 14:14:36 press kernel: >1<r0go.>e0 1o8r 1<r1>o8OnDksKrt 13> luo0r7jdo6po9k 2sa@TR6fn=ruo2tre10cmp=pm 8.ab  Or1sTog1=>sp rrR>ie7em=tmmHo8oxt2t8eeeAd 7nm
Jun 10 14:14:36 press kernel: mp
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: <<op1
Jun 10 14:14:36 press kernel: 11
Jun 10 14:14:36 press kernel: 188<><>ostm1<x1e._s1ml.11goJ8otg81pel> He=8uas.Cprmc=xnv>o.>mlg. go[ogle.7c l 4eo.em 1r[2.745..c14d2"53o..2427e3] .5 fX2=T07eLa1
Jun 10 14:14:36 press kernel: 2L0
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: <<x
Jun 10 14:14:36 press kernel: 11<
Jun 10 14:14:36 press kernel: 18>9<"11
Jun 10 14:14:36 press kernel: i11818>8
Jun 10 14:14:36 press kernel: 2S<>>v6111:.]8mRbC:>4 ka-mSieHl2A. :0y1a121h-b80o.o 6C6=6.-c"1
Jun 10 14:14:36 press kernel: om"
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: <n<
Jun 10 14:14:36 press kernel: 1<11811>1288>5>o00  2t[  .160r46.e.:091a44 c.:2O33K85 .1 4173]h07:e6 9d 42f26o1r71  1y 24.6a7.n0y s h[ioT2Ss0t1
Jun 10 14:14:36 press kernel: ]Q
Jun 10 14:14:36 press kernel: 4
Jun 10 14:14:36 press kernel: <
Jun 10 14:14:36 press kernel: <<118>11 1M18e8>s>sa5g3Ue9sw7 rf45f-a0g0r.o1m0556 x"j2
Jun 10 14:14:36 press kernel: 1-
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: <<11181>8C>g2 .1=5> 4.d2t0o8r.jb16tp9@ trnemtcpop.raorrig ly<D dtoefrjerbtrep@d Rndutce p.toOr ug>s eRr= cdnomslpolaokinupts T -
Jun 10 14:14:36 press kernel: 3
Jun 10 14:14:36 press kernel: n
Jun 10 14:14:36 press kernel: 6
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: s
Jun 10 14:14:36 press kernel: 0
Jun 10 14:14:36 press kernel: d
Jun 10 14:14:36 press kernel: 1g
Jun 10 14:14:36 press kernel:
Jun 10 14:14:36 press kernel: <<118>oogle.com [74.125.43.27] X=TLSv111:RC4-SHA:1828 C="250 2.>02.0 OK 1307869 2C=621 d4si7846902bkf.9"