имеется несколько серверов с установленным SLES 11 SP1, на котором стоит XEN 4. из коробки. ядро 2.6.32.12-0.7-xen Происходит периодическое зависание. Причем частота периода меняется хаотично. Может зависнуть через день, а может и через месяц. На сервере стоят виртуальные машины с полной виртуализацией. Зависание происходит спонтанно. Сервер может пинговаться, но доступ по ssh или просто доступ к консоли отсутствует. Виртуалки соответственно вообще прекращают работать. Я написал скрипт, который пингует яндекс каждые 15 минут. В момент последнего зависания этот скрипт отработал в 06-16-00 и все, дальше крон не запускался. Также, во время последнего зависания записался лог, что памяти не хватает и oom killer начал убивать процессы, что и привело к краху системы, но пинги до этого сервера шли. Жесткий ресет вернул сервер в боевое состояние - но это лишь временная мера. Из-за чего может такое происходить? может это глюк ядра и надо что-то с ним сделать? вот прикладываю кусок лога в момент краха системы: Apr 19 06:14:38 www kernel: [1023541.775583] irqbalance invoked oom-killer: gfp_mask=0xd0, order=1, oom_adj=0 Apr 19 06:14:38 www kernel: [1023541.775588] irqbalance cpuset=/ mems_allowed=0 Apr 19 06:14:38 www kernel: [1023541.775592] Pid: 4986, comm: irqbalance Not tainted 2.6.32.12-0.7-xen #1 Apr 19 06:14:38 www kernel: [1023541.775595] Call Trace: Apr 19 06:14:38 www kernel: [1023541.775612] [<ffffffff80009af5>] dump_trace+0x65/0x180 Apr 19 06:14:38 www kernel: [1023541.775621] [<ffffffff8034f056>] dump_stack+0x69/0x73 Apr 19 06:14:38 www kernel: [1023541.775629] [<ffffffff8009cf20>] oom_kill_process+0xe0/0x220 Apr 19 06:14:38 www kernel: [1023541.775635] [<ffffffff8009d690>] __out_of_memory+0x50/0xa0 Apr 19 06:14:38 www kernel: [1023541.775640] [<ffffffff8009d73e>] out_of_memory+0x5e/0xc0 Apr 19 06:14:38 www kernel: [1023541.775645] [<ffffffff800a06f9>] __alloc_pages_slowpath+0x429/0x500 Apr 19 06:14:38 www kernel: [1023541.775651] [<ffffffff800a090a>] __alloc_pages_nodemask+0x13a/0x140 Apr 19 06:14:38 www kernel: [1023541.775656] [<ffffffff800ce4bb>] cache_grow+0x34b/0x440 Apr 19 06:14:38 www kernel: [1023541.775662] [<ffffffff800ce80e>] cache_alloc_refill+0x25e/0x2a0 Apr 19 06:14:38 www kernel: [1023541.775666] [<ffffffff800ce9cd>] __kmalloc+0x17d/0x190 Apr 19 06:14:38 www kernel: [1023541.775672] [<ffffffff800f889a>] seq_read+0x13a/0x3a0 Apr 19 06:14:38 www kernel: [1023541.775679] [<ffffffff80132851>] proc_reg_read+0x91/0xe0 Apr 19 06:14:38 www kernel: [1023541.775687] [<ffffffff800da4a7>] vfs_read+0xc7/0x130 Apr 19 06:14:38 www kernel: [1023541.775692] [<ffffffff800da613>] sys_read+0x53/0xa0 Apr 19 06:14:38 www kernel: [1023541.775697] [<ffffffff80007458>] system_call_fastpath+0x16/0x1b Apr 19 06:14:38 www kernel: [1023541.775719] [<00007fd548ab8f30>] 0x7fd548ab8f30 Apr 19 06:14:38 www kernel: [1023541.775721] Mem-Info: Apr 19 06:14:38 www kernel: [1023541.775723] DMA per-cpu: Apr 19 06:14:38 www kernel: [1023541.775725] CPU 0: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775727] CPU 1: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775729] CPU 2: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775732] CPU 3: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775734] CPU 4: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775736] CPU 5: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775738] CPU 6: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775740] CPU 7: hi: 0, btch: 1 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775741] DMA32 per-cpu: Apr 19 06:14:38 www kernel: [1023541.775743] CPU 0: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775746] CPU 1: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775748] CPU 2: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775750] CPU 3: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775752] CPU 4: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775754] CPU 5: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775756] CPU 6: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775759] CPU 7: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775760] Normal per-cpu: Apr 19 06:14:38 www kernel: [1023541.775762] CPU 0: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775764] CPU 1: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775766] CPU 2: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775769] CPU 3: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775771] CPU 4: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775773] CPU 5: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775775] CPU 6: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775777] CPU 7: hi: 155, btch: 38 usd: 0 Apr 19 06:14:38 www kernel: [1023541.775782] active_anon:170 inactive_anon:144 isolated_anon:0 Apr 19 06:14:38 www kernel: [1023541.775783] active_file:0 inactive_file:0 isolated_file:0 Apr 19 06:14:38 www kernel: [1023541.775785] unevictable:8 dirty:0 writeback:0 unstable:0 Apr 19 06:14:38 www kernel: [1023541.775786] free:86993 slab_reclaimable:137591 slab_unreclaimable:246910 Apr 19 06:14:38 www kernel: [1023541.775787] mapped:1081 shmem:40 pagetables:0 bounce:0 Apr 19 06:14:38 www kernel: [1023541.775794] DMA free:9284kB min:20kB low:24kB high:28kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:16160kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no Apr 19 06:14:38 www kernel: [1023541.775799] lowmem_reserve[]: 0 4024 7814 7814 Apr 19 06:14:38 www kernel: [1023541.775808] DMA32 free:331008kB min:5816kB low:7268kB high:8724kB active_anon:584kB inactive_anon:196kB active_file:0kB inactive_file:0kB unevictable:8kB isolated(anon):0kB isolated(file):0kB present:2051564kB mlocked:8kB dirty:0kB writeback:0kB mapped:4052kB shmem:152kB slab_reclaimable:451584kB slab_unreclaimable:840136kB kernel_stack:165648kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no Apr 19 06:14:38 www kernel: [1023541.775814] lowmem_reserve[]: 0 0 3790 3790 Apr 19 06:14:38 www kernel: [1023541.775822] Normal free:7680kB min:5480kB low:6848kB high:8220kB active_anon:96kB inactive_anon:380kB active_file:4kB inactive_file:0kB unevictable:24kB isolated(anon):0kB isolated(file):0kB present:232532kB mlocked:24kB dirty:0kB writeback:0kB mapped:272kB shmem:8kB slab_reclaimable:98780kB slab_unreclaimable:147504kB kernel_stack:5968kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? no Apr 19 06:14:38 www kernel: [1023541.775828] lowmem_reserve[]: 0 0 0 0 Apr 19 06:14:38 www kernel: [1023541.775831] DMA: 1*4kB 2*8kB 1*16kB 1*32kB 2*64kB 1*128kB 1*256kB 1*512kB 0*1024kB 0*2048kB 2*4096kB = 9284kB Apr 19 06:14:38 www kernel: [1023541.775840] DMA32: 82106*4kB 52*8kB 1*16kB 1*32kB 0*64kB 1*128kB 1*256kB 0*512kB 0*1024kB 1*2048kB 0*4096kB = 331320kB Apr 19 06:14:38 www kernel: [1023541.775848] Normal: 1418*4kB 0*8kB 0*16kB 1*32kB 1*64kB 1*128kB 0*256kB 0*512kB 0*1024kB 1*2048kB 0*4096kB = 7944kB Apr 19 06:14:38 www kernel: [1023541.775857] 347 total pagecache pages Apr 19 06:14:38 www kernel: [1023541.775858] 237 pages in swap cache Apr 19 06:14:38 www kernel: [1023541.775861] Swap cache stats: add 426982, delete 426745, find 694839/764209 Apr 19 06:14:38 www kernel: [1023541.775863] Free swap = 8146716kB Apr 19 06:14:38 www kernel: [1023541.775864] Total swap = 8385920kB Apr 19 06:14:38 www kernel: [1023541.794793] 2034471 pages RAM Apr 19 06:14:38 www kernel: [1023541.794796] 1508794 pages reserved Apr 19 06:14:38 www kernel: [1023541.794798] 4533 pages shared Apr 19 06:14:38 www kernel: [1023541.794799] 393951 pages non-shared Apr 19 06:14:38 www kernel: [1023541.794803] Out of memory: kill process 6521 (nonstop_linux_i) score 158548 or a child Apr 19 06:14:38 www kernel: [1023541.794807] Killed process 6534 (java) Apr 19 06:15:01 www kernel: [1022806.535576] cron invoked oom-killer: gfp_mask=0xd0, order=1, oom_adj=0 Apr 19 06:15:01 www kernel: [1022806.535582] cron cpuset=/ mems_allowed=0 Apr 19 06:15:01 www kernel: [1022806.535586] Pid: 7685, comm: cron Not tainted 2.6.32.12-0.7-xen #1 Apr 19 06:15:01 www kernel: [1022806.535589] Call Trace: Apr 19 06:15:01 www kernel: [1022806.535609] [<ffffffff80009af5>] dump_trace+0x65/0x180 и т.д. просто лог большой. Дальше все повторяется и убиваются процессы.
|