Версия для распечатки

Пред. тема | След. тема

Новые ответы

[ Отслеживать ]

как определить отчего внезапно останавливается сервер,

uboot, 21-Янв-11, 06:59 [смотреть все]

Всем привет!

RHEL 5, внезапно прерывается удаленный доступ к серверу
локально - черный экран и ни как не реагирующая клавиатура
после перезагрузки в журнале:


............
Dec 30 07:52:13 mail clamd[2825]: SelfCheck: Database status OK. 
Dec 30 08:02:13 mail clamd[2825]: SelfCheck: Database status OK. 
Dec 30 08:12:13 mail clamd[2825]: SelfCheck: Database status OK. 
Jan  3 15:51:38 mail syslogd 1.4.1: restart.
Jan  3 15:51:38 mail kernel: klogd 1.4.1, log source = /proc/kmsg started.
Jan  3 15:51:38 mail kernel: Linux version 2.6.18-194.el5 (mockbuild@ca-build10.us.oracle.com) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)) #1 SMP Mon Mar 29 22:10:29 EDT 2010
Jan  3 15:51:38 mail kernel: Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet
Jan  3 15:51:38 mail kernel: BIOS-provided physical RAM map:
Jan  3 15:51:38 mail kernel:  BIOS-e820: 0000000000010000 - 000000000009f400 (usable)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000000e4000 - 0000000000100000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 0000000000100000 - 00000000bdc70000 (usable)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000bdc70000 - 00000000bdc88000 (ACPI data)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000bdc88000 - 00000000bdcdc000 (ACPI NVS)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000bdcdc000 - 00000000c0000000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000000ff800000 - 0000000100000000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 0000000100000000 - 00000001fc000000 (usable)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 00000001fc000000 - 0000000200000000 (reserved)
Jan  3 15:51:38 mail kernel:  BIOS-e820: 0000000200000000 - 0000000240000000 (usable)
Jan  3 15:51:38 mail kernel: DMI 2.6 present.
.........

в чем может быть проблема?
предполагаю что в железе, но как найти?
спасибо

Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер,

uboot, 07:37 , 24-Янв-11 (1)

Очередной раз остановился!!!
пришлось перезагружать
логи:


Jan 18 20:32:26 mail clamd[2801]: SelfCheck: Database status OK. 
Jan 18 20:42:26 mail clamd[2801]: SelfCheck: Database status OK. 
Jan 18 20:52:26 mail clamd[2801]: SelfCheck: Database status OK. 
Jan 18 21:00:54 mail shutdown[31481]: shutting down for system reboot
Jan 18 21:00:56 mail smartd[6898]: smartd received signal 15: Terminated 
Jan 18 21:00:56 mail smartd[6898]: smartd is exiting (exit status 0) 
Jan 18 21:01:06 mail clamd[2801]: Pid file removed. 
Jan 18 21:01:06 mail clamd[2801]: --- Stopped at Tue Jan 18 21:01:06 2011 
Jan 18 21:01:06 mail clamd[2801]: Socket file removed. 
Jan 18 21:01:07 mail xinetd[2768]: Exiting...
Jan 18 21:01:10 mail gconfd (root-3897): GConf server is not in use, shutting down.
Jan 18 21:01:10 mail gconfd (root-3897): Exiting
Jan 18 21:01:10 mail ntpd[2780]: ntpd exiting on signal 15
Jan 18 21:01:11 mail auditd[2462]: The audit daemon is exiting.
Jan 18 21:01:11 mail kernel: audit(1295373671.167:2552): audit_pid=0 old=2462 by auid=4294967295
Jan 18 21:01:11 mail kernel: Kernel logging (proc) stopped.
Jan 18 21:01:11 mail kernel: Kernel log daemon terminating.
Jan 18 21:01:12 mail exiting on signal 15
Jan 20 14:53:35 mail syslogd 1.4.1: restart.
Jan 20 14:53:35 mail kernel: klogd 1.4.1, log source = /proc/kmsg started.
Jan 20 14:53:35 mail kernel: Linux version 2.6.18-194.el5 (mockbuild@ca-build10.us.oracle.com) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)) #1 SMP Mon Mar 29 22:10:29 EDT 2010
Jan 20 14:53:35 mail kernel: Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet
Jan 20 14:53:35 mail kernel: BIOS-provided physical RAM map:
Jan 20 14:53:35 mail kernel:  BIOS-e820: 0000000000010000 - 000000000009f400 (usable)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000000e4000 - 0000000000100000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 0000000000100000 - 00000000bdc70000 (usable)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000bdc70000 - 00000000bdc88000 (ACPI data)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000bdc88000 - 00000000bdcdc000 (ACPI NVS)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000bdcdc000 - 00000000c0000000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000000ff800000 - 0000000100000000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 0000000100000000 - 00000001fc000000 (usable)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 00000001fc000000 - 0000000200000000 (reserved)
Jan 20 14:53:35 mail kernel:  BIOS-e820: 0000000200000000 - 0000000240000000 (usable)
Jan 20 14:53:35 mail kernel: DMI 2.6 present.

в чем может быть проблема?

спасибо

Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер,

uboot, 07:27 , 25-Янв-11 (2)

Очередной раз, при удаленной перезагрузке
не загрузился, пришлось ехать и тыкать кнопку!!!

 
Jan 21 21:35:33 mail smartd[6962]: Device: /dev/sda, opened
Jan 21 21:35:33 mail smartd[6962]: Device: /dev/sda, not found in smartd database.
Jan 21 21:35:34 mail smartd[6962]: Device: /dev/sda, is SMART capable. Adding to "monitor" list.
Jan 21 21:35:34 mail smartd[6962]: Device: /dev/sdb, opened
Jan 21 21:35:34 mail smartd[6962]: Device /dev/sdb: using '-d sat' for ATA disk behind SAT layer.
Jan 21 21:35:34 mail smartd[6962]: Device: /dev/sdb, opened
Jan 21 21:35:34 mail smartd[6962]: Device: /dev/sdb, not found in smartd database.
Jan 21 21:35:34 mail smartd[6962]: Device: /dev/sdb, is SMART capable. Adding to "monitor" list.
Jan 21 21:35:34 mail smartd[6962]: Monitoring 0 ATA and 2 SCSI devices
Jan 21 21:35:35 mail smartd[6972]: smartd has fork()ed into background mode. New PID=6972.
Jan 21 21:35:36 mail kernel: [drm] Initialized drm 1.0.1 20051102
Jan 21 21:35:36 mail kernel: ACPI: PCI Interrupt 0000:00:02.0[A] -> GSI 16 (level, low) -> IRQ 177
Jan 23 14:34:59 mail syslogd 1.4.1: restart.
Jan 23 14:34:59 mail kernel: klogd 1.4.1, log source = /proc/kmsg started.
Jan 23 14:34:59 mail kernel: Linux version 2.6.18-194.el5 (mockbuild@ca-build10.us.oracle.com) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-48)) #1 SMP Mon Mar 29 22:10:29 EDT 2010
Jan 23 14:34:59 mail kernel: Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet
Jan 23 14:34:59 mail kernel: BIOS-provided physical RAM map:
Jan 23 14:34:59 mail kernel:  BIOS-e820: 0000000000010000 - 000000000009f400 (usable)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 000000000009f400 - 00000000000a0000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000000e4000 - 0000000000100000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 0000000000100000 - 00000000bdc70000 (usable)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000bdc70000 - 00000000bdc88000 (ACPI data)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000bdc88000 - 00000000bdcdc000 (ACPI NVS)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000bdcdc000 - 00000000c0000000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000000ff800000 - 0000000100000000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 0000000100000000 - 00000001fc000000 (usable)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 00000001fc000000 - 0000000200000000 (reserved)
Jan 23 14:34:59 mail kernel:  BIOS-e820: 0000000200000000 - 0000000240000000 (usable)
Jan 23 14:34:59 mail kernel: DMI 2.6 present.

может журнал перевести в более болтливый режим?
или дело в ACPI?
спасибо

Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер, reader, 13:51 , 25-Янв-11 (3)

как определить отчего внезапно останавливается сервер, uboot, 17:35 , 25-Янв-11 (5)
> из всего приведенного не видно почему так происходит
да это видно,
вот какие службы запущены:
```
acpid
anacron
atd
auditd
autofs
clamd
clamsmtpd
cpuspeed
crond
dovecot
firstboot
gpm
haldeamon
httpd
iptables
irqbalance
jexec
lvm2-monitor
mcstrans
mdmonitor
messagebus
microcode_ctl
mysqld
named
netfs
network
ntpd
portmap
postfix
rawdevices
readahead_early
readahead_later
restorecond
rhnsd
setroubleshoot
smartd
spamassassin
sshd
syslog
sysstat
tomcat5
vboxdrv
vboxweb-service
vncserver
vsftpd
xinetd
yum-updatesd
```
может какие то службы друг другу мешают?
или ваабще не нужны?
Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер, DogEater, 20:44 , 25-Янв-11 (7)

как определить отчего внезапно останавливается сервер, uboot, 06:57 , 26-Янв-11 (8)
>> Jan 18 21:00:54 mail shutdown[31481]: shutting down for system reboot
> ...
>> в чем может быть проблема?
>> спасибо
> система не валится, а явным образом перезагружается
или просто останавливается ядро..........
```
Dec 30 08:02:13 mail clamd[2825]: SelfCheck: Database status OK. 
Dec 30 08:12:13 mail clamd[2825]: SelfCheck: Database status OK. 
Jan  3 15:51:38 mail syslogd 1.4.1: restart.
Jan  3 15:51:38 mail kernel: klogd 1.4.1, log source = /proc/kmsg started.
```
> в кроне лишнего ничего не стоит?
девственно чистый:
```
SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root
HOME=/# run-parts
01 * * * * root run-parts /etc/cron.hourly
02 4 * * * root run-parts /etc/cron.daily
22 4 * * 0 root run-parts /etc/cron.weekly
42 4 1 * * root run-parts /etc/cron.monthly
```
и в остальных
```
/etc/cron.*
```
все по умолчанию
Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер, beza2000, 11:04 , 26-Янв-11 (10)

как определить отчего внезапно останавливается сервер, koblin, 17:19 , 25-Янв-11 (4)

как определить отчего внезапно останавливается сервер,

uboot, 17:39 , 25-Янв-11 (6)

>> в чем может быть проблема?
> посмотри /var/log/acpid

смотрю начиная с первых дней проблемы:


[Thu Dec 23 16:02:24 2010] 1 client rule loaded
[Mon Jan  3 15:51:39 2011] starting up
[Mon Jan  3 15:51:39 2011] 1 rule loaded
[Mon Jan  3 15:51:39 2011] client connected from 2699[68:68]
[Mon Jan  3 15:51:39 2011] 1 client rule loaded
[Mon Jan  3 15:54:06 2011] client connected from 7111[0:0]
[Mon Jan  3 15:54:06 2011] 1 client rule loaded
[Mon Jan 17 15:55:29 2011] exiting
[Mon Jan 17 15:57:05 2011] starting up
[Mon Jan 17 15:57:05 2011] 1 rule loaded
[Mon Jan 17 15:57:06 2011] client connected from 2676[68:68]
[Mon Jan 17 15:57:06 2011] 1 client rule loaded
[Mon Jan 17 15:59:43 2011] client connected from 7030[0:0]
[Mon Jan 17 15:55:29 2011] exiting
[Mon Jan 17 15:57:05 2011] starting up
[Mon Jan 17 15:57:05 2011] 1 rule loaded
[Mon Jan 17 15:57:06 2011] client connected from 2676[68:68]
[Mon Jan 17 15:57:06 2011] 1 client rule loaded
[Mon Jan 17 15:59:43 2011] client connected from 7030[0:0]
[Mon Jan 17 15:59:43 2011] 1 client rule loaded
[Tue Jan 18 21:01:10 2011] exiting
[Thu Jan 20 14:53:36 2011] starting up
[Thu Jan 20 14:53:36 2011] 1 rule loaded
[Thu Jan 20 14:53:37 2011] client connected from 2673[68:68]
[Thu Jan 20 14:53:37 2011] 1 client rule loaded
[Thu Jan 20 14:56:13 2011] client connected from 7093[0:0]
[Thu Jan 20 14:56:13 2011] 1 client rule loaded
[Fri Jan 21 21:31:33 2011] exiting
[Fri Jan 21 21:33:08 2011] starting up
[Fri Jan 21 21:33:08 2011] 1 rule loaded
[Fri Jan 21 21:33:08 2011] client connected from 2676[68:68]
[Fri Jan 21 21:33:08 2011] 1 client rule loaded
[Fri Jan 21 21:35:35 2011] client connected from 7083[0:0]
[Fri Jan 21 21:35:35 2011] 1 client rule loaded
[Sun Jan 23 14:35:00 2011] starting up
[Sun Jan 23 14:35:00 2011] 1 rule loaded
[Sun Jan 23 14:35:00 2011] client connected from 2700[68:68]
[Sun Jan 23 14:35:00 2011] 1 client rule loaded
[Sun Jan 23 14:37:34 2011] client connected from 7360[0:0]
[Sun Jan 23 14:37:34 2011] 1 client rule loaded

и что должен увидеть?

Ответить | Сообщить модератору

как определить отчего внезапно останавливается сервер, koblin, 09:59 , 26-Янв-11 (9)