The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Глухо виснет FC6, !*! maldersoft, 03-Мрт-07, 14:29  [смотреть все]
Здраствуйте.
Где то 8 месяев назад поставил FC-5 все сначало работало нормально, НО потом вдруг система стала зависать по непонятным причинам, висла днем, ночью, через 3 минуты после перезагрузки или через 20 часов, но стабильно висла, причем так как сервер находится не дома, то физически посмотреть на консоль возможности небыло, да и служба поддержки говорила что экран черный, нет никаких сообщений. Причем с каждым разом система висла все быстрее, были моменты что я даже залогиниться не успевал. Перепробывал я тогда много чего, весь рунет перерыл, толку 0. Кроме того в логах /var/log/messages стали появляться записи о битых файлах, вообщем решено было поставить другой винт, заодно и память+ старую FC4. Решили, поехали, поставили. Зависания прекратились.
Прошло 8 месяцев и я решил что FC4 старье ну и решил ее обновить(переставить) на FC6.
Ну и через 12 часов аптайма все повторилось точно так же...черый экран и тишина.
Счас лазал 2ое суток по форумам, гуглу инету, но что потрясает что обычно все заканчивается НЕЧЕМ, т.е. чел выкладывает логи, другие и на этом топик дохнет.
ПОМОГИТЕ пожалуйста разобраться с данной довольно важной для меня проблемой.
uname -a
Linux localhost 2.6.18-1.2798.fc6 #1 SMP Mon Oct 16 14:37:32 EDT 2006 i686 athlon i386 GNU/Linux
[root@localhost /]# lspci -v
00:00.0 Host bridge: ATI Technologies Inc RS480 Host Bridge (rev 10)
        Subsystem: ATI Technologies Inc RS480 Host Bridge
        Flags: bus master, 66MHz, medium devsel, latency 0

00:01.0 PCI bridge: ATI Technologies Inc RS480 PCI Bridge (prog-if 00 [Normal decode])
        Flags: bus master, 66MHz, medium devsel, latency 64
        Bus: primary=00, secondary=01, subordinate=01, sec-latency=64
        I/O behind bridge: 0000d000-0000dfff
        Memory behind bridge: ff400000-ff4fffff
        Prefetchable memory behind bridge: 00000000f6b00000-00000000fea00000
        Capabilities: [44] HyperTransport: MSI Mapping
        Capabilities: [b0] #0d [0000]

00:13.0 USB Controller: ATI Technologies Inc IXP SB400 USB Host Controller (prog-if 10 [OHCI])
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7145
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 185
        Memory at ff6fe000 (32-bit, non-prefetchable) [size=4K]
        Capabilities: [d0] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-

00:13.1 USB Controller: ATI Technologies Inc IXP SB400 USB Host Controller (prog-if 10 [OHCI])
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7145
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 185
        Memory at ff6fd000 (32-bit, non-prefetchable) [size=4K]
        Capabilities: [d0] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-

00:13.2 USB Controller: ATI Technologies Inc IXP SB400 USB2 Host Controller (prog-if 20 [EHCI])
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7145
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 185
        Memory at ff6fc000 (32-bit, non-prefetchable) [size=4K]
        Capabilities: [dc] Power Management version 2
        Capabilities: [d0] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-

00:14.0 SMBus: ATI Technologies Inc IXP SB400 SMBus Controller (rev 11)
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7145
        Flags: 66MHz, medium devsel
        I/O ports at 0b00 [size=16]
        Memory at 40100000 (32-bit, non-prefetchable) [size=1K]
        Capabilities: [b0] HyperTransport: MSI Mapping

00:14.1 IDE interface: ATI Technologies Inc Standard Dual Channel PCI IDE Controller ATI (prog-if 8a [Master SecP PriP])
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7145
        Flags: bus master, 66MHz, medium devsel, latency 0, IRQ 177
        I/O ports at <ignored>
        I/O ports at <ignored>
        I/O ports at <ignored>
        I/O ports at <ignored>
        I/O ports at ff00 [size=16]
        Capabilities: [70] Message Signalled Interrupts: 64bit- Queue=0/0 Enable-

00:14.3 ISA bridge: ATI Technologies Inc IXP SB400 PCI-ISA Bridge
        Flags: bus master, 66MHz, medium devsel, latency 0

00:14.4 PCI bridge: ATI Technologies Inc IXP SB400 PCI-PCI Bridge (prog-if 01 [Subtractive decode])
        Flags: bus master, 66MHz, medium devsel, latency 64
        Bus: primary=00, secondary=02, subordinate=02, sec-latency=64
        I/O behind bridge: 0000e000-0000efff
        Memory behind bridge: ff500000-ff5fffff
        Prefetchable memory behind bridge: 40000000-400fffff

00:18.0 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] HyperTransport Technology Configuration
        Flags: fast devsel
        Capabilities: [80] HyperTransport: Host or Secondary Interface

00:18.1 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Address Map
        Flags: fast devsel

00:18.2 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] DRAM Controller
        Flags: fast devsel

00:18.3 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Miscellaneous Control
        Flags: fast devsel

01:05.0 VGA compatible controller: ATI Technologies Inc RS480 [Radeon Xpress 200G Series] (prog-if 00 [VGA])
        Subsystem: Micro-Star International Co., Ltd. Unknown device 7141
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 10
        Memory at f8000000 (32-bit, prefetchable) [size=64M]
        I/O ports at d800 [size=256]
        Memory at ff4f0000 (32-bit, non-prefetchable) [size=64K]
        Expansion ROM at ff4c0000 [disabled] [size=128K]
        Capabilities: [50] Power Management version 2

02:03.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8139/8139C/8139C+ (rev 10)
        Subsystem: Micro-Star International Co., Ltd. Unknown device 145c
        Flags: bus master, medium devsel, latency 64, IRQ 193
        I/O ports at e800 [size=256]
        Memory at ff5ffc00 (32-bit, non-prefetchable) [size=256]
        Expansion ROM at 40000000 [disabled] [size=64K]
        Capabilities: [50] Power Management version 2
лог /var/log/messages http://webfile.ru/1333391
лог top за сутки http://webfile.ru/1333395
Кстати файлы счас снова теряються, счас отключаю dma при каждой загрузке с помощью hdparm.

  • Глухо виснет FC6, !*! zzz, 16:24 , 03-Мрт-07 (1)
    • Глухо виснет FC6, !*! maldersoft, 18:25 , 03-Мрт-07 (2)
      >На что обратить внимание:
      >1. Блок питания - хватает ли мощности вообще и по линиям на
      >которым питаются харды в частности.
      в консоли это реально сделать?
      >2. Контроллеры которые работают - какие из них стоят в соседних слотах
      >и могут ли они вообще стоять рядом (хоть это из серии
      >плясок с бубном, но мне помогла однажды банальная установка контроллера в
      >другой PCI слот - до сих пор не понимаю чем ему
      >не нравился тот в котором стоял).
      контроллер встроенный в материнку =)
      >3. Нафик отключить/выгрузить все "левые" сервисы и драйвера, особенно, в вашем случае,
      >smartd.
      эээ, подскажите какие кроме smartd, просто иногда боязно какой то отключать.
      >4. Желательно поставить посвежее ядро.
      уже сделал, при следующем зависании прогрузится свежее 2.6.19-1.2911.6.4.fc6.
      >5. Память - memtest.
      >6. Харды проверить - тоже утилит масса.
      смысла нет, fc-4 на нем работала на максимальных нагрузках.
      >7. На время всех испытаний отключить SELinux.
      сначала оно отключено и было, просто думал какаю-нибудь полезную инфу может выдаст.
      >8. Включить/отключить ACPI. Не знаю, но может и поможет.
      пробывал в параметрах ядра.
      >9. Использовать чипсет Intel. Сугубо мое ИМХО, но на нем проблем меньше,
      >чем на любом другом. По крайней мере в linux.
      это уже не реально =(
      >Ну и пробовать, пробовать... Думаю рецепта того как побороть глюки вы врядли
      >получите, т.к. тут просто надо методом научного тыка действовать :)
      >
      >ЗЫ: для полноты картины не хватает результата работы lsmod.
      lsmod
      Module                  Size  Used by
      xt_limit                6977  3
      ipt_LOG                10561  4
      iptable_nat            11845  0
      ip_nat                 22253  1 iptable_nat
      iptable_mangle          7105  0
      autofs4                25413  2
      hidp                   24129  2
      rfcomm                 46041  0
      l2cap                  31681  10 hidp,rfcomm
      bluetooth              58917  5 hidp,rfcomm,l2cap
      sunrpc                158333  1
      ip_conntrack_netbios_ns     7105  0
      ipt_REJECT              9665  2
      xt_state                6337  8
      ip_conntrack           56993  4 iptable_nat,ip_nat,ip_conntrack_netbios_ns,xt_state
      nfnetlink              11353  2 ip_nat,ip_conntrack
      iptable_filter          7233  1
      ip_tables              17669  3 iptable_nat,iptable_mangle,iptable_filter
      ip6t_REJECT             9537  1
      xt_tcpudp               7361  25
      ip6table_filter         7105  1
      ip6_tables             18821  1 ip6table_filter
      x_tables               18501  9 xt_limit,ipt_LOG,iptable_nat,ipt_REJECT,xt_state,ip_tables,ip6t_REJECT,xt_tcpudp,ip6_tables
      ipv6                  267489  15 ip6t_REJECT
      cpufreq_ondemand       11085  1
      dm_mirror              33041  0
      dm_multipath           22601  0
      dm_mod                 61529  2 dm_mirror,dm_multipath
      video                  21061  0
      sbs                    20225  0
      i2c_ec                  9281  1 sbs
      button                 10961  0
      battery                14405  0
      asus_acpi              20697  0
      ac                      9541  0
      parport_pc             31205  0
      lp                     17033  0
      parport                40841  2 parport_pc,lp
      floppy                 61284  0
      i2c_piix4              12621  0
      8139cp                 28609  0
      pcspkr                  7361  0
      i2c_core               25537  2 i2c_ec,i2c_piix4
      8139too                31169  0
      serio_raw              11205  0
      k8_edac                18433  0
      mii                     9665  2 8139cp,8139too
      edac_mc                27209  1 k8_edac
      ext3                  135369  2
      jbd                    63209  1 ext3
      ehci_hcd               35533  0
      ohci_hcd               25181  0
      uhci_hcd               27725  0

      hdparm -iv /dev/hda

      /dev/hda:
      multcount    = 16 (on)
      IO_support   =  0 (default 16-bit)
      unmaskirq    =  0 (off)
      using_dma    =  0 (off)
      keepsettings =  0 (off)
      readonly     =  0 (off)
      readahead    = 256 (on)
      geometry     = 16383/255/63, sectors = 234441648, start = 0

      Model=ST3120213A, FwRev=3.AAD, SerialNo=4LS09EQ7
      Config={ HardSect NotMFM HdSw>15uSec Fixed DTR>10Mbs RotSpdTol>.5% }
      RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=4
      BuffType=unknown, BuffSize=2048kB, MaxMultSect=16, MultSect=16
      CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=234441648
      IORDY=on/off, tPIO={min:240,w/IORDY:120}, tDMA={min:120,rec:120}
      PIO modes:  pio0 pio1 pio2 pio3 pio4
      DMA modes:  mdma0 mdma1 mdma2
      UDMA modes: udma0 udma1 udma2 udma3 udma4 *udma5
      AdvancedPM=no WriteCache=enabled
      Drive conforms to: Unspecified:  ATA/ATAPI-1 ATA/ATAPI-2 ATA/ATAPI-3 ATA/ATAPI-4 ATA/ATAPI-5 ATA/ATAPI-6 ATA/ATAPI-7

      * signifies the current active mode


      hdparm -iv /dev/hdb

      /dev/hdb:
      multcount    = 16 (on)
      IO_support   =  0 (default 16-bit)
      unmaskirq    =  0 (off)
      using_dma    =  0 (off)
      keepsettings =  0 (off)
      readonly     =  0 (off)
      readahead    = 256 (on)
      geometry     = 16383/255/63, sectors = 78242976, start = 0

      Model=SAMSUNG SP0411N, FwRev=TW100-11, SerialNo=S01JJ20X980177
      Config={ HardSect NotMFM HdSw>15uSec Fixed DTR>10Mbs }
      RawCHS=16383/16/63, TrkSize=34902, SectSize=554, ECCbytes=4
      BuffType=DualPortCache, BuffSize=2048kB, MaxMultSect=16, MultSect=16
      CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=78242976
      IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
      PIO modes:  pio0 pio1 pio2 pio3 pio4
      DMA modes:  mdma0 mdma1 mdma2
      UDMA modes: udma0 udma1 udma2 udma3 udma4 *udma5
      AdvancedPM=no WriteCache=enabled
      Drive conforms to: ATA/ATAPI-7 T13 1532D revision 0:  ATA/ATAPI-1 ATA/ATAPI-2 ATA/ATAPI-3 ATA/ATAPI-4 ATA/ATAPI-5 ATA/ATAPI-6 ATA/ATAPI-7

      * signifies the current active mode
      smartctl --all /dev/hda
      smartctl version 5.36 [i686-redhat-linux-gnu] Copyright (C) 2002-6 Bruce Allen
      Home page is http://smartmontools.sourceforge.net/

      === START OF INFORMATION SECTION ===
      Device Model:     ST3120213A
      Serial Number:    4LS09EQ7
      Firmware Version: 3.AAD
      User Capacity:    120▒034▒123▒776 bytes
      Device is:        Not in smartctl database [for details use: -P showall]
      ATA Version is:   7
      ATA Standard is:  Exact ATA specification draft version not indicated
      Local Time is:    Sat Mar  3 18:22:29 2007 MSK
      SMART support is: Available - device has SMART capability.
      SMART support is: Enabled

      === START OF READ SMART DATA SECTION ===
      SMART overall-health self-assessment test result: PASSED

      General SMART Values:
      Offline data collection status:  (0x82) Offline data collection activity
                                              was completed without error.
                                              Auto Offline Data Collection: Enabled.
      Self-test execution status:      (   0) The previous self-test routine completed
                                              without error or no self-test has ever
                                              been run.
      Total time to complete Offline
      data collection:                 ( 430) seconds.
      Offline data collection
      capabilities:                    (0x5b) SMART execute Offline immediate.
                                              Auto Offline data collection on/off support.
                                              Suspend Offline collection upon new
                                              command.
                                              Offline surface scan supported.
                                              Self-test supported.
                                              No Conveyance Self-test supported.
                                              Selective Self-test supported.
      SMART capabilities:            (0x0003) Saves SMART data before entering
                                              power-saving mode.
                                              Supports SMART auto save timer.
      Error logging capability:        (0x01) Error logging supported.
                                              General Purpose Logging supported.
      Short self-test routine
      recommended polling time:        (   1) minutes.
      Extended self-test routine
      recommended polling time:        (  51) minutes.

      SMART Attributes Data Structure revision number: 10
      Vendor Specific SMART Attributes with Thresholds:
      ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
        1 Raw_Read_Error_Rate     0x000f   119   090   006    Pre-fail  Always       -       204351894
        3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
        4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       18
        5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
        7 Seek_Error_Rate         0x000f   077   062   030    Pre-fail  Always       -       56191590
        9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       922
      10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
      12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       26
      187 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
      189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0
      190 Unknown_Attribute       0x0022   052   050   045    Old_age   Always       -       808321072
      194 Temperature_Celsius     0x0022   048   050   000    Old_age   Always       -       48 (Lifetime Min/Max 0/27)
      195 Hardware_ECC_Recovered  0x001a   053   048   000    Old_age   Always       -       8109748
      197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
      198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
      199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
      200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
      202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

      SMART Error Log Version: 1
      No Errors Logged

      SMART Self-test log structure revision number 1
      Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
      # 1  Extended offline    Completed without error       00%         0         -

      SMART Selective self-test log data structure revision number 1
      SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
          1        0        0  Not_testing
          2        0        0  Not_testing
          3        0        0  Not_testing
          4        0        0  Not_testing
          5        0        0  Not_testing
      Selective self-test flags (0x0):
        After scanning selected spans, do NOT read-scan remainder of disk.
      If Selective self-test is pending on power-up, resume after 0 minute delay.

      • Глухо виснет FC6, !*! Brainbug, 19:21 , 03-Мрт-07 (3)
        • Глухо виснет FC6, !*! maldersoft, 20:10 , 03-Мрт-07 (4)
          >Bili zame4ani problemi s prelink proceduroj na FC6.
          >Prosto viklu4aju jego i vostanavlivaju predidu6eje sostojanije.
          >
          >[test@localhost sysconfig]$ pwd
          >/etc/sysconfig
          >[test@localhost sysconfig]$ grep PRELINKING prelink
          >PRELINKING=no
          >[test@localhost sysconfig]$ sudo prelink -au
          >[test@localhost sysconfig]$

          у меня там написано PRELINKING=yes
          команда  sudo prelink -au  ничего не делает.
          а как выключать то?
          просто в конфиге указать PRELINKING=no и рестартнуться?
          а все ли будет работать нормально после этого?

          • Глухо виснет FC6, !*! Brainbug, 20:25 , 03-Мрт-07 (5)
            • Глухо виснет FC6, !*! smusich, 00:39 , 04-Мрт-07 (6)
              • Глухо виснет FC6, !*! maldersoft, 21:47 , 04-Мрт-07 (7)
                Значит что сделал:
                1) отключил prelink (prelinking=no)
                2) отключил dma (ide=nodma)
                3) отключил apic (noapic) из за этого:
                Feb 28 16:50:41 sys kernel: ENABLING IO-APIC IRQs
                Feb 28 16:50:41 sys kernel: ..TIMER: vector=0x31 apic1=0 pin1=2 apic2=-1 pin2=-1
                Feb 28 16:50:41 sys kernel: ..MP-BIOS bug: 8254 timer not connected to IO-APIC
                Feb 28 16:50:41 sys kernel: ...trying to set up timer (IRQ0) through the 8259A ...  failed.
                Feb 28 16:50:41 sys kernel: ...trying to set up timer as Virtual Wire IRQ... works.

                Но он почему то неотключился =(
                Mar  4 03:12:52 sys kernel: Using APIC driver default
                Mar  4 03:12:52 sys kernel: ATI board detected. Disabling timer routing over 8254.
                Mar  4 03:12:52 sys kernel: ACPI: PM-Timer IO Port: 0x808
                Mar  4 03:12:52 sys kernel: ACPI: LAPIC (acpi_id[0x01] lapic_id[0x00] enabled)
                Mar  4 03:12:52 sys kernel: Processor #0 15:4 APIC version 16
                Mar  4 03:12:52 sys kernel: ACPI: LAPIC (acpi_id[0x02] lapic_id[0x81] disabled)
                Mar  4 03:12:52 sys kernel: ACPI: Skipping IOAPIC probe due to 'noapic' option.
                Mar  4 03:12:52 sys kernel: Using ACPI for processor (LAPIC) configuration information
                Mar  4 03:12:52 sys kernel: Intel MultiProcessor Specification v1.4
                Mar  4 03:12:52 sys kernel:     Virtual Wire compatibility mode.
                Mar  4 03:12:52 sys kernel: OEM ID: ATI      Product ID: AMDK8+RS480  APIC at: 0xFEE00000
                Mar  4 03:12:52 sys kernel: I/O APIC #1 Version 33 at 0xFEC00000.
                Mar  4 03:12:52 sys kernel: Enabling APIC mode:  Flat.  Using 1 I/O APICs

                4) поставил последнее ядро(yum update kernel)
                2.6.19-1.2911.6.4.fc6 #1 SMP Sat Feb 24 14:39:04 EST 2007 i686 athlon i386 GNU/Linux

                5) отключил SElinux
                6) отключил yum-updatesd (так как он иногда занимал по 98% CPU)
                сервер повис после аптайма 12 часов еще со старым ядром, счас загрузился с новым аптайм пока  21:44:10 up 18:34. Вообще еще идеи есть на случай если зависнет?

                • Глухо виснет FC6, !*! maldersoft, 22:19 , 04-Мрт-07 (8)
                  опять завис =(
                  подскажите хоть что сделать чтобы файлы не терялись и база mysql не билась.
                  может кеширование где нить отключить?
                  • Глухо виснет FC6, !*! maldersoft, 14:28 , 05-Мрт-07 (9)
                    >опять завис =(
                    >подскажите хоть что сделать чтобы файлы не терялись и база mysql не
                    >билась.
                    >может кеширование где нить отключить?
                    все умерли? =(
                    • Глухо виснет FC6, !*! Brainbug, 15:48 , 05-Мрт-07 (10)
                      • Глухо виснет FC6, !*! maldersoft, 06:02 , 06-Мрт-07 (12)
                        >>>опять завис =(
                        >>>подскажите хоть что сделать чтобы файлы не терялись и база mysql не
                        >>>билась.
                        >>>может кеширование где нить отключить?
                        >>все умерли? =(
                        >
                        >
                        >Ja bi posovetoval polnostju proveritj zelezo.
                        с железом все ок, счас засунул в FC6 ядро от FC4 и уже сутки и 2 часа не виснет, пока что это рекорд, но хочется новое ядро, а не старье, как теперь выяснить что ему в новом ядре не нравится?



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру