Странное поведение catalyst 4948e, kid, 11-Янв-18, 10:28 [смотреть все]Всем доброго времени суток.Подскажите уважаемые куда копать уже сломал голову. В общем стоит на границе сети каталист 3550-12Т, поднято 2 аплинка: 1-etherchanel (2 порта) 2-й резервный гиговый порт, бгп принимает от аплинков только дефолтные маршруты. в этот же коммутатор воткнуто 3 сервера: 1)NAT 2)Белые адреса бегают 3)BRAS с pppoe клиентами.На данном коммутаторе все работает отлично, по 1м каналу прокачиваем свои 2 гига без проблем. Решили поменять коммутатор на более мощный поставили 4948е-с 4мя 10Гб портами, конфигурация 1 в 1 с 3550, но при установке коммутатора начинаются проблемы, не можем прокачать свои 2 гига, скорости у абонентов нет, а на серверах начинаю наблюдать дикие потери на сетевых интерфейсах к примеру на сервере где бегают белые ипRX packets:489094294147 errors:46 dropped:203983 overruns:716283 frame:26 ethtool -S eth6 | grep rx rx_packets: 489097326771 rx_bytes: 540861461684088 rx_broadcast: 54 rx_multicast: 0 rx_crc_errors: 26 rx_no_buffer_count: 0 rx_missed_errors: 203983 rx_long_length_errors: 0 rx_short_length_errors: 0 rx_align_errors: 0 rx_flow_control_xon: 0 rx_flow_control_xoff: 0 rx_long_byte_count: 540861461684088 rx_smbus: 0 os2bmc_rx_by_bmc: 0 os2bmc_rx_by_host: 0 rx_errors: 46 rx_length_errors: 0 rx_over_errors: 0 rx_frame_errors: 0 rx_fifo_errors: 716283 rx_queue_0_packets: 60275438145 rx_queue_0_bytes: 67364653646328 rx_queue_0_drops: 66870 rx_queue_0_csum_err: 862692 rx_queue_0_alloc_failed: 0 rx_queue_1_packets: 59742801332 rx_queue_1_bytes: 66535309734072 rx_queue_1_drops: 132185 rx_queue_1_csum_err: 788196 rx_queue_1_alloc_failed: 0 rx_queue_2_packets: 61087346856 rx_queue_2_bytes: 67571487122583 rx_queue_2_drops: 53690 rx_queue_2_csum_err: 1021215 rx_queue_2_alloc_failed: 0 rx_queue_3_packets: 62018388233 rx_queue_3_bytes: 67839534530503 rx_queue_3_drops: 42516 rx_queue_3_csum_err: 4393512 rx_queue_3_alloc_failed: 0 rx_queue_4_packets: 61935367558 rx_queue_4_bytes: 67771655959457 rx_queue_4_drops: 53519 rx_queue_4_csum_err: 890017 rx_queue_4_alloc_failed: 0 rx_queue_5_packets: 60983872760 rx_queue_5_bytes: 66954520823464 rx_queue_5_drops: 42260 rx_queue_5_csum_err: 1317810 rx_queue_5_alloc_failed: 0 rx_queue_6_packets: 63103739331 rx_queue_6_bytes: 68177826438092 rx_queue_6_drops: 55008 rx_queue_6_csum_err: 842091 rx_queue_6_alloc_failed: 0 rx_queue_7_packets: 59948940847 rx_queue_7_bytes: 66689840760277 rx_queue_7_drops: 66252 rx_queue_7_csum_err: 803654 rx_queue_7_alloc_failed: 0 соответственно на циске вижу что она начинает активно вставлять pause frame и дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти. Если я правильно понимаю то дело даже не в циске.
|
- Странное поведение catalyst 4948e, fantom, 12:39 , 11-Янв-18 (1)
- Странное поведение catalyst 4948e, kid, 12:55 , 11-Янв-18 (2)
>[оверквотинг удален] > Где N 0-8 > Symptoms > rx_queue_0_csum_err incrementing in ethtool -S output > [Expert@gw]# ethtool -k <interface> shows: > rx-checksumming: on > The interface is using the igb driver > Cause > The cable or port in use may be faulty. > This can also be caused by the rx-checksumming option for the interface, > in some cases.Я правильно понял что надо отключить чексумминг на интерфейсе? сейчас вот так настройки сделаны ethtool -k eth6 Features for eth6: rx-checksumming: on tx-checksumming: on tx-checksum-ipv4: on tx-checksum-unneeded: off [fixed] tx-checksum-ip-generic: off [fixed] tx-checksum-ipv6: on tx-checksum-fcoe-crc: off [fixed] tx-checksum-sctp: on scatter-gather: on tx-scatter-gather: on tx-scatter-gather-fraglist: off [fixed] tcp-segmentation-offload: on tx-tcp-segmentation: on tx-tcp-ecn-segmentation: off [fixed] tx-tcp6-segmentation: on udp-fragmentation-offload: off [fixed] generic-segmentation-offload: on generic-receive-offload: on large-receive-offload: off [fixed] rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: off [fixed] receive-hashing: on highdma: on [fixed] rx-vlan-filter: on [fixed] vlan-challenged: off [fixed] tx-lockless: off [fixed] netns-local: off [fixed] tx-gso-robust: off [fixed] tx-fcoe-segmentation: off [fixed] fcoe-mtu: off [fixed] tx-nocache-copy: on loopback: off [fixed]
- Странное поведение catalyst 4948e, fantom, 13:05 , 11-Янв-18 (3)
- Странное поведение catalyst 4948e, kid, 16:06 , 11-Янв-18 (4)
>[оверквотинг удален] >> tx-gso-robust: off [fixed] >> tx-fcoe-segmentation: off [fixed] >> fcoe-mtu: off [fixed] >> tx-nocache-copy: on >> loopback: off [fixed] > !!!! > The cable or port in use may be faulty. > !!!! > Порт или кабель могут быть неисправны. > Для начала проверить порты 48-ого каталиста что проблема на всех портах в которые включены сервера?
- Странное поведение catalyst 4948e, vk, 07:42 , 12-Янв-18 (5)
- Странное поведение catalyst 4948e, kid, 14:27 , 12-Янв-18 (6)
> выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно > полегчать.flowcontrol Отключал и на rx и на tx легче не становилось. Что то я прихожу к выводу что и не в циске дело, похоже сервера наливают кучу мелких пакетов, 3550 как то жует их, а на 4948 уже получается переполнение буферов, вчера на одном из серверов через ethtool увеличил буфера на rx-tx до 4096 (стояло 256) так у меня сразу порт на циске и слождился с переполненым тх буфером. в данный момент настройки интерфейса на сервера вот такие ethtool -g eth6 Ring parameters for eth6: Pre-set maximums: RX: 4096 RX Mini: 0 RX Jumbo: 0 TX: 4096 Current hardware settings: RX: 256 RX Mini: 0 RX Jumbo: 0 TX: 256 ethtool -k eth6 Features for eth6: rx-checksumming: on tx-checksumming: on tx-checksum-ipv4: on tx-checksum-unneeded: off [fixed] tx-checksum-ip-generic: off [fixed] tx-checksum-ipv6: on tx-checksum-fcoe-crc: off [fixed] tx-checksum-sctp: on scatter-gather: on tx-scatter-gather: on tx-scatter-gather-fraglist: off [fixed] tcp-segmentation-offload: on tx-tcp-segmentation: on tx-tcp-ecn-segmentation: off [fixed] tx-tcp6-segmentation: on udp-fragmentation-offload: off [fixed] generic-segmentation-offload: on generic-receive-offload: on large-receive-offload: off [fixed] rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: off [fixed] receive-hashing: on highdma: on [fixed] rx-vlan-filter: on [fixed] vlan-challenged: off [fixed] tx-lockless: off [fixed] netns-local: off [fixed] tx-gso-robust: off [fixed] tx-fcoe-segmentation: off [fixed] fcoe-mtu: off [fixed] tx-nocache-copy: on loopback: off [fixed] ethtool -i eth6 driver: igb version: 5.0.5-k firmware-version: 1.2.1 bus-info: 0000:0a:00.1 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: yes supports-priv-flags: no может чего то отключить включить посоветуете?
- Странное поведение catalyst 4948e, fantom, 17:02 , 12-Янв-18 (7)
- Странное поведение catalyst 4948e, vk, 22:59 , 12-Янв-18 (8)
- Странное поведение catalyst 4948e, Andrey, 23:21 , 12-Янв-18 (9)
- Странное поведение catalyst 4948e, kid, 12:49 , 13-Янв-18 (10)
>> может чего то отключить включить посоветуете? > Ну для начала нужно определиться с тем, в какую сторону будете копать > проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов > _серверов_. Делать предположения что в вашем каталисте происходит, только на основании > показаний серверов... ну даже не знаю что сказать... > Либо статистика со свитча, либо разбираем проблему на стороне серверов.Спасибо все откликнувшимся на проблему, сейчас 4948 снята и перепрошита другой версией иос, так что счетчики обнулились, выкладываю показания в момент когда она стояла на канале и в нее были включены сервера. отключил flow control на интерфейсах пропали ошибки TxPauseFrames ,до этого сыпались, потом стал смотреть счетчики на интерфейсах, почему льет в одну очередь когда qos вообще отсутствует в настройках Port Tx-Bytes-Queue-1 Tx-Bytes-Queue-2 Tx-Bytes-Queue-3 Tx-Bytes-Queue-4 Gi1/8 275988 0 0 0 Port Tx-Bytes-Queue-5 Tx-Bytes-Queue-6 Tx-Bytes-Queue-7 Tx-Bytes-Queue-8 Gi1/8 0 0 0 2234230990749 ну и самое главное откуда сыпятся дропы? show platform software drop-port Drop Port Software State Dequeue Enabled : True DropQueue Water mark Reg : 0x8000600038001D4C DropQueue Water mark Reg : 0x7FE32010 (Empty, PreEmpty, Head:0xED, Tail:0xED) DropActivityCount : 22236165 DropOverrunCount : 0 Drop Event Reason Packets Dropped ----------------- --------------- RxErrDrop 16 SptDrop 144611 InpL2AclDrop 19 InpL3AclDrop 46123 BridgeToRxPortDrop 3541320 rplErrDrop 6576714 TxQueFullDrop 22799697 show platform health PacketBufRaw 184.29 100% 184.29 100% PacketBufRaw 5938.31 100% 5938.31 100% Packets Dropped In Processing Overall Total 5 sec avg 1 min avg 5 min avg 1 hour avg -------------------- --------- --------- --------- ---------- 2839939 1 0 1 0 Packets Dropped In Processing by CPU event Event Total 5 sec avg 1 min avg 5 min avg 1 hour avg ----------------- -------------------- --------- --------- --------- ---------- Sa Miss 2839939 1 0 1 0 Packets Dropped In Processing by Priority Priority Total 5 sec avg 1 min avg 5 min avg 1 hour avg ----------------- -------------------- --------- --------- --------- ---------- Medium 2839939 1 0 1 0 Packets Dropped In Processing by Reason Reason Total 5 sec avg 1 min avg 5 min avg 1 hour avg ------------------ -------------------- --------- --------- --------- ---------- STPDrop 10 0 0 0 0 Tx Mode Drop 2839929 1 0 1 0 Total packet queues 64 Packets Received by Packet Queue Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg ---------------------- --------------- --------- --------- --------- ---------- Input ACL fwd(snooping) 2108 0 0 0 0 Host Learning 2839893 1 0 1 0 L2 Control 1170963 0 0 0 0 Ip Option 98 0 0 0 0 Ttl Expired 3753040 5 0 2 0 Adj SameIf Fail 8805693 0 0 0 0 L2 router to CPU, 7 3297553 2 0 1 0 L3 Glean, 7 3917159 2 0 1 2 L3 Fwd, 7 610579 0 0 0 0 L3 Receive, 7 1106106 0 0 0 0 Packets Dropped by Packet Queue Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg ---------------------- --------------- --------- --------- --------- ---------- Adj SameIf Fail 136 0 0 0 0 L3 Glean, 7 13174 0 0 0 0 никаких колец нет.
- Странное поведение catalyst 4948e, kid, 17:47 , 15-Янв-18 (11)
Идей нет? В общем судя по документации циски очередь при переводе порта в L3 становится 75 Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser..., судя посчетчикам у меня все лилось в 8 очередь что на данном коммутаторе является свободным qos. Возможно ли с ПС с гиговым портом нагенерировать под гиг трафика для разбора на стенде, если поставлю в рабочую сеть и будет опять такая петрушка меня уже точно порешат.
|