Новые ответы

Проблема с рейдом mdadm,

ESP, 15-Окт-09, 10:09 [смотреть все]

Добрый день.
Отрубили свет, а apcupsd отключил комп несколько ранее, чем остановились все процессы. В результате, при ресинхорнизации sdb=>sda получил 18 ошибок, они же вылезли и при smartctl --all /dev/sda.
smartctl --all /dev/sda
smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3250310AS
Serial Number:    9RY01C4W
Firmware Version: 3.AAA
User Capacity:    250 059 350 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Oct 15 11:31:03 2009 NOVST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          ( 430) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   1) minutes.
Extended self-test routine
recommended polling time:      (  92) minutes.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   106   100   006    Pre-fail  Always       -       11304615
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       87
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   067   060   030    Pre-fail  Always       -       5805208
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1223
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       87
187 Reported_Uncorrect      0x0032   082   082   000    Old_age   Always       -       18
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   057   045    Old_age   Always       -       36 (Lifetime Min/Max 33/36)
194 Temperature_Celsius     0x0022   036   043   000    Old_age   Always       -       36 (0 22 0 0)
195 Hardware_ECC_Recovered  0x001a   068   064   000    Old_age   Always       -       2613598
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0
SMART Error Log Version: 1
ATA Error Count: 18 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 18 occurred at disk power-on lifetime: 1222 hours (50 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 49 4c 40 e4  Error: UNC at LBA = 0x04404c49 = 71322697
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 47 4c 40 e4 00      00:08:40.753  READ DMA
  27 00 00 00 00 00 e0 00      00:08:40.750  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:08:40.750  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:08:40.747  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:08:37.186  READ NATIVE MAX ADDRESS EXT
Error 17 occurred at disk power-on lifetime: 1222 hours (50 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 49 4c 40 e4  Error: UNC at LBA = 0x04404c49 = 71322697
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 47 4c 40 e4 00      00:08:40.753  READ DMA
  27 00 00 00 00 00 e0 00      00:08:40.750  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:08:40.750  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:08:40.747  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:08:37.186  READ NATIVE MAX ADDRESS EXT
Error 16 occurred at disk power-on lifetime: 1222 hours (50 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 49 4c 40 e4  Error: UNC at LBA = 0x04404c49 = 71322697
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 47 4c 40 e4 00      00:08:33.605  READ DMA
  27 00 00 00 00 00 e0 00      00:08:30.028  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:08:30.028  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:08:30.015  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:08:37.186  READ NATIVE MAX ADDRESS EXT
Error 15 occurred at disk power-on lifetime: 1222 hours (50 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 49 4c 40 e4  Error: UNC at LBA = 0x04404c49 = 71322697
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 47 4c 40 e4 00      00:08:33.605  READ DMA
  27 00 00 00 00 00 e0 00      00:08:30.028  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:08:30.028  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:08:30.015  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:08:30.004  READ NATIVE MAX ADDRESS EXT
Error 14 occurred at disk power-on lifetime: 1222 hours (50 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 49 4c 40 e4  Error: UNC at LBA = 0x04404c49 = 71322697
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 47 4c 40 e4 00      00:08:22.735  READ DMA
  27 00 00 00 00 00 e0 00      00:08:30.028  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:08:30.028  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00      00:08:30.015  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:08:30.004  READ NATIVE MAX ADDRESS EXT
SMART Self-test log structure revision number 1
SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Сейчас не стартует один из сервисов - база данных. Прошу помощи, т.к. опыта пока маловато.
Насколько я понял, бэдов пока нет, раз   Reallocated_Sector_Ct 0. Но все же, чего делать далее?

Ответить | Сообщить модератору

Проблема с рейдом mdadm, ALex_hha, 12:28 , 15-Окт-09 (1)

Проблема с рейдом mdadm, ESP, 12:43 , 15-Окт-09 (2)
>А при чем тут smart к ошибкам на ФС?
Ошибки выскочили в процессе синхронизации, да и сейчас если смарт запускаешь - выдает эти 18 ошибок.
>показывай
>
># cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb2[1] sda2[0]
      4096448 blocks [2/2] [UU]

md2 : active raid1 sdb3[1] sda3[0]
      127459584 blocks [2/2] [UU]

md0 : active raid1 sdb1[1] sda1[0]
      112639616 blocks [2/2] [UU]

unused devices: <none>
># mdadm --examine --scan
ARRAY /dev/md0 level=raid1 num-devices=2 UUID=aab816ab:c8722d2d:5c3f933a:fd6a24ed
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=4416014a:3b19b92b:1659efbf:d0c9ecd0
ARRAY /dev/md2 level=raid1 num-devices=2 UUID=2615cdf2:a1904686:c72dc049:7d84a763
># mdadm --detail /dev/mdX
mdadm --detail /dev/md0
/dev/md0:
        Version : 00.90.03
  Creation Time : Fri Aug 28 17:36:58 2009
     Raid Level : raid1
     Array Size : 112639616 (107.42 GiB 115.34 GB)
  Used Dev Size : 112639616 (107.42 GiB 115.34 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent
    Update Time : Thu Oct 15 15:41:06 2009
          State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
  Spare Devices : 0
           UUID : aab816ab:c8722d2d:5c3f933a:fd6a24ed
         Events : 0.22
    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1

mdadm --detail /dev/md1
/dev/md1:
        Version : 00.90.03
  Creation Time : Fri Aug 28 17:36:58 2009
     Raid Level : raid1
     Array Size : 4096448 (3.91 GiB 4.19 GB)
  Used Dev Size : 4096448 (3.91 GiB 4.19 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent
    Update Time : Wed Sep  9 13:24:20 2009
          State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
  Spare Devices : 0
           UUID : 4416014a:3b19b92b:1659efbf:d0c9ecd0
         Events : 0.4
    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       8       18        1      active sync   /dev/sdb2

mdadm --detail /dev/md2
/dev/md2:
        Version : 00.90.03
  Creation Time : Fri Aug 28 17:37:54 2009
     Raid Level : raid1
     Array Size : 127459584 (121.55 GiB 130.52 GB)
  Used Dev Size : 127459584 (121.55 GiB 130.52 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2
    Persistence : Superblock is persistent
    Update Time : Thu Oct 15 15:41:15 2009
          State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
  Spare Devices : 0
           UUID : 2615cdf2:a1904686:c72dc049:7d84a763
         Events : 0.20
    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
Ответить | Сообщить модератору

Проблема с рейдом mdadm, ALex_hha, 13:54 , 15-Окт-09 (3)

Проблема с рейдом mdadm, ESP, 14:01 , 15-Окт-09 (4)
>на всех разделах рейда, следует что нет никакой рассинхронизации. С чего ты
>это взял?
Я и не утверждаю, что она есть. Я вижу проблему по smartctl - есть ошибки на диске, о которых было сообщено во время синхронизации после сбоя питания. В результате имею незапускающуюся субд - спец по субд сказал, ее теперь надо восстанавливать из бекапа.
А пока я хочу понять, как исправить ошибки на диске и чем они грозят. Буду признателен за помощь.
PS. наверно, не слишком удачно обозвал тему.
Ответить | Сообщить модератору

Проблема с рейдом mdadm, ALex_hha, 14:32 , 15-Окт-09 (5)

Проблема с рейдом mdadm, ESP, 14:39 , 15-Окт-09 (6)
>fsck запускал? Что она говорит?
fsck /dev/sda - не дает, говорит, что устройство занято. Его придется из рейда выводить и проверять, или взять да и проверить весь массив fsck /dev/md0 ?
>Smart мог ругаться только, если какие то проблемы с физикой диска, до
>фс ему нет никакого дела
>Я бы сделал так
>
>fsck - чтобы убедиться что на фс нет ошибок
>victoria/mhdd - чтобы убедиться, что физика у винтов номральная
Ответить | Сообщить модератору

Проблема с рейдом mdadm, ze6ra, 17:28 , 15-Окт-09 (7)

Проблема с рейдом mdadm, ESP, 18:07 , 15-Окт-09 (8)
>Базы хранят много данных в память и данные на диск пишутся не
>сразу поэтому не корректная остановка сервиса БД может привести к не
>рабочей базе или рабочей но стартовать придется методами отличными от штатных
>поскольку движок СУБД будет видеть что сервис не был завершён нормально
>и соответственно без вмешательства администратора БД не запустится.
Тут разобрались - восстановил из бекапа без проблем.
> fsck проверяет ФС которая на /dev/mdX соответственно по частям проверить, после синхронизации, бессмысленно эти диски уже точные копии друг друга.
я чего-то недопонимаю) если они точные копии, как и должно быть, по идее, то почему smartctl находит 18 ошибок на sda и не находит ничего на sdb?
Все же, в голове пока нет четкого алгоритма, что делать. Пока представляю так.
Пометить все, что касается sba как сбойное:
mdadm --manage /dev/md0 --fail /dev/sda1
mdadm --manage /dev/md1 --fail /dev/sda2
mdadm --manage /dev/md2 --fail /dev/sda3
Убрать из рейда sda:
mdadm --manage /dev/md0 --remove /dev/sda1
mdadm --manage /dev/md1 --remove /dev/sda2
mdadm --manage /dev/md2 --remove /dev/sda3
Проверить:
fsck /dev/sda - или он не даст проверить смонтированное устройство?
Если все исправится, то добавить в рейд:
mdadm --manage /dev/md0 --add /dev/sda1
mdadm --manage /dev/md1 --add /dev/sda2
mdadm --manage /dev/md2 --add /dev/sda3
После этого ресинхронизация будет производиться с sdb, поскольку sda пометили как сбойный.
Хотелось бы, чтобы кто-нибудь с опытом такой порядок действий подтвердил или меня поправил.
> Лучше разберитесь как
>служба бесперебойника смогла не корректно вырубить систему так что даже RAID
>рассенхронизировались. Может стоит проверить батарею или таймауты да бесперебойник вещь весьма
>ненадёжная раз в полгода желательно проверить что он ещё держит нагрузку
>иначе всё может плохо кончится.
Собственно, это мой первый сервер, а apcupsd я только вчера вечером поставил, не успел толком настроить. Как я понял, неверно определилось время работы от батареи, т.к. вчера заметил, что было написано что-то около 40 минут, а света сегодня не было минут 5 всего...
Ответить | Сообщить модератору

Проблема с рейдом mdadm, аноним, 19:04 , 15-Окт-09 (10)

Проблема с рейдом mdadm, ALex_hha, 19:07 , 15-Окт-09 (11)

Проблема с рейдом mdadm, ze6ra, 19:31 , 15-Окт-09 (12)

Проблема с рейдом mdadm, ALex_hha, 19:36 , 15-Окт-09 (13)

Проблема с рейдом mdadm, ze6ra, 19:59 , 15-Окт-09 (14)

Проблема с рейдом mdadm, ALex_hha, 19:02 , 15-Окт-09 (9)

Проблема с рейдом mdadm, ESP, 07:27 , 16-Окт-09 (15)
в общем, попробовал
1. перегрузился в однопользовательском режиме
2. перемонировал все фс на чтение
3. разобрал рейд
4. fsck -yvf /dev/sdaX
5. smartctl --all /dev/sda говорит о все тех же 18 ошибках Reported Uncorrect (UNC at LBA)
какие будут мысли?
Ответить | Сообщить модератору

Проблема с рейдом mdadm, ESP, 08:32 , 16-Окт-09 (16)
badblocks -v /dev/sda
Pass completed, 0 bad blocks found.
Может, за эти ошибки и беспокоиться не надо? Или, наоборот, винт пора на помойку?
Ответить | Сообщить модератору

Проблема с рейдом mdadm, ALex_hha, 13:54 , 16-Окт-09 (17)

Проблема с рейдом mdadm, ESP, 15:20 , 16-Окт-09 (18)
Спасибо, что помогаешь!
>Я же говорил, физику проверь victoria или mhdd. Ну и найди описание
>тех ошибок смарта, о чем вообще они говорят
Виктория в линейном тесте говорит - дефектов не найдено.
http://en.wikipedia.org/wiki/Self-Monitoring%2C_Analysi...
Reported Uncorrectable Errors A number of errors that could not be recovered using hardware ECC (see attribute 195). Как я понял, число ошибок передачи данных по шине данных, которые НЕ удалось восстановить аппаратно, исходя из противоположного параметра №195 в русской википедии.
О чем это может говорить? Шлейфы может САТАшные проверить?
Ответить | Сообщить модератору

Проблема с рейдом mdadm, sHaggY_caT, 15:37 , 16-Окт-09 (19)
Проблема с рейдом mdadm, ALex_hha, 01:18 , 19-Окт-09 (20)
Проблема с рейдом mdadm, ESP, 10:29 , 19-Окт-09 (21)
>если их количество не увеличивается, то это вполне может быть нормальным состоянием,
>с у четом того, что ошибки появились из-за того, что выключили
>свет
В википедии написано, что параметр не является критическим. В большинстве мануалов по смарту пишут, что главное, чтобы общий результат теста бы PASSED.
Шлейф менял, не помогло. Сейчас вот собрал обратно рейд. Ресинхронизация прошла без проблем и ошибок. Хотя смарт по-прежнему эти 18 ошибок пишет.
Ответить | Сообщить модератору