The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Странное поведение catalyst 4948e, !*! kid, 11-Янв-18, 10:28  [смотреть все]
Всем доброго времени суток.Подскажите уважаемые куда копать уже сломал голову. В общем стоит на границе сети каталист 3550-12Т, поднято 2 аплинка: 1-etherchanel (2 порта) 2-й резервный гиговый порт, бгп принимает от аплинков только дефолтные маршруты. в этот же коммутатор воткнуто 3 сервера: 1)NAT 2)Белые адреса бегают 3)BRAS с pppoe клиентами.На данном коммутаторе все работает отлично, по 1м каналу прокачиваем свои 2 гига без проблем. Решили поменять коммутатор на более мощный поставили 4948е-с 4мя 10Гб портами, конфигурация 1 в 1 с 3550, но при установке коммутатора начинаются проблемы, не можем прокачать свои 2 гига, скорости у абонентов нет, а на серверах начинаю наблюдать дикие потери на сетевых интерфейсах
к примеру на сервере где бегают белые ип

RX packets:489094294147 errors:46 dropped:203983 overruns:716283 frame:26
ethtool -S eth6 | grep rx
     rx_packets: 489097326771
     rx_bytes: 540861461684088
     rx_broadcast: 54
     rx_multicast: 0
     rx_crc_errors: 26
     rx_no_buffer_count: 0
     rx_missed_errors: 203983
     rx_long_length_errors: 0
     rx_short_length_errors: 0
     rx_align_errors: 0
     rx_flow_control_xon: 0
     rx_flow_control_xoff: 0
     rx_long_byte_count: 540861461684088
     rx_smbus: 0
     os2bmc_rx_by_bmc: 0
     os2bmc_rx_by_host: 0
     rx_errors: 46
     rx_length_errors: 0
     rx_over_errors: 0
     rx_frame_errors: 0
     rx_fifo_errors: 716283
     rx_queue_0_packets: 60275438145
     rx_queue_0_bytes: 67364653646328
     rx_queue_0_drops: 66870
     rx_queue_0_csum_err: 862692
     rx_queue_0_alloc_failed: 0
     rx_queue_1_packets: 59742801332
     rx_queue_1_bytes: 66535309734072
     rx_queue_1_drops: 132185
     rx_queue_1_csum_err: 788196
     rx_queue_1_alloc_failed: 0
     rx_queue_2_packets: 61087346856
     rx_queue_2_bytes: 67571487122583
     rx_queue_2_drops: 53690
     rx_queue_2_csum_err: 1021215
     rx_queue_2_alloc_failed: 0
     rx_queue_3_packets: 62018388233
     rx_queue_3_bytes: 67839534530503
     rx_queue_3_drops: 42516
     rx_queue_3_csum_err: 4393512
     rx_queue_3_alloc_failed: 0
     rx_queue_4_packets: 61935367558
     rx_queue_4_bytes: 67771655959457
     rx_queue_4_drops: 53519
     rx_queue_4_csum_err: 890017
     rx_queue_4_alloc_failed: 0
     rx_queue_5_packets: 60983872760
     rx_queue_5_bytes: 66954520823464
     rx_queue_5_drops: 42260
     rx_queue_5_csum_err: 1317810
     rx_queue_5_alloc_failed: 0
     rx_queue_6_packets: 63103739331
     rx_queue_6_bytes: 68177826438092
     rx_queue_6_drops: 55008
     rx_queue_6_csum_err: 842091
     rx_queue_6_alloc_failed: 0
     rx_queue_7_packets: 59948940847
     rx_queue_7_bytes: 66689840760277
     rx_queue_7_drops: 66252
     rx_queue_7_csum_err: 803654
     rx_queue_7_alloc_failed: 0

соответственно на циске вижу что она начинает активно вставлять pause frame и дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти. Если я правильно понимаю то дело даже не в циске.

  • Странное поведение catalyst 4948e, !*! fantom, 12:39 , 11-Янв-18 (1)
    • Странное поведение catalyst 4948e, !*! kid, 12:55 , 11-Янв-18 (2)
      >[оверквотинг удален]
      > Где N 0-8
      > Symptoms
      > rx_queue_0_csum_err incrementing in ethtool -S output
      > [Expert@gw]# ethtool -k <interface> shows:
      > rx-checksumming: on
      > The interface is using the igb driver
      > Cause
      > The cable or port in use may be faulty.
      > This can also be caused by the rx-checksumming option for the interface,
      > in some cases.

      Я правильно понял что надо отключить чексумминг на интерфейсе?
      сейчас вот так настройки сделаны
      ethtool -k eth6
      Features for eth6:
      rx-checksumming: on
      tx-checksumming: on
              tx-checksum-ipv4: on
              tx-checksum-unneeded: off [fixed]
              tx-checksum-ip-generic: off [fixed]
              tx-checksum-ipv6: on
              tx-checksum-fcoe-crc: off [fixed]
              tx-checksum-sctp: on
      scatter-gather: on
              tx-scatter-gather: on
              tx-scatter-gather-fraglist: off [fixed]
      tcp-segmentation-offload: on
              tx-tcp-segmentation: on
              tx-tcp-ecn-segmentation: off [fixed]
              tx-tcp6-segmentation: on
      udp-fragmentation-offload: off [fixed]
      generic-segmentation-offload: on
      generic-receive-offload: on
      large-receive-offload: off [fixed]
      rx-vlan-offload: on
      tx-vlan-offload: on
      ntuple-filters: off [fixed]
      receive-hashing: on
      highdma: on [fixed]
      rx-vlan-filter: on [fixed]
      vlan-challenged: off [fixed]
      tx-lockless: off [fixed]
      netns-local: off [fixed]
      tx-gso-robust: off [fixed]
      tx-fcoe-segmentation: off [fixed]
      fcoe-mtu: off [fixed]
      tx-nocache-copy: on
      loopback: off [fixed]

  • Странное поведение catalyst 4948e, !*! vk, 07:42 , 12-Янв-18 (5)
    • Странное поведение catalyst 4948e, !*! kid, 14:27 , 12-Янв-18 (6)
      > выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно
      > полегчать.

      flowcontrol Отключал и на rx и на tx легче не становилось. Что то я прихожу к выводу что и не в циске дело, похоже сервера наливают кучу мелких пакетов, 3550 как то жует их, а на 4948 уже получается переполнение буферов, вчера на одном из серверов через ethtool увеличил буфера на rx-tx до 4096 (стояло 256) так у меня сразу порт на циске и слождился с переполненым тх буфером. в данный момент настройки интерфейса на сервера вот такие

      ethtool -g eth6
      Ring parameters for eth6:
      Pre-set maximums:
      RX:             4096
      RX Mini:        0
      RX Jumbo:       0
      TX:             4096
      Current hardware settings:
      RX:             256
      RX Mini:        0
      RX Jumbo:       0
      TX:             256

      ethtool -k eth6
      Features for eth6:
      rx-checksumming: on
      tx-checksumming: on
              tx-checksum-ipv4: on
              tx-checksum-unneeded: off [fixed]
              tx-checksum-ip-generic: off [fixed]
              tx-checksum-ipv6: on
              tx-checksum-fcoe-crc: off [fixed]
              tx-checksum-sctp: on
      scatter-gather: on
              tx-scatter-gather: on
              tx-scatter-gather-fraglist: off [fixed]
      tcp-segmentation-offload: on
              tx-tcp-segmentation: on
              tx-tcp-ecn-segmentation: off [fixed]
              tx-tcp6-segmentation: on
      udp-fragmentation-offload: off [fixed]
      generic-segmentation-offload: on
      generic-receive-offload: on
      large-receive-offload: off [fixed]
      rx-vlan-offload: on
      tx-vlan-offload: on
      ntuple-filters: off [fixed]
      receive-hashing: on
      highdma: on [fixed]
      rx-vlan-filter: on [fixed]
      vlan-challenged: off [fixed]
      tx-lockless: off [fixed]
      netns-local: off [fixed]
      tx-gso-robust: off [fixed]
      tx-fcoe-segmentation: off [fixed]
      fcoe-mtu: off [fixed]
      tx-nocache-copy: on
      loopback: off [fixed]

      ethtool -i eth6
      driver: igb
      version: 5.0.5-k
      firmware-version: 1.2.1
      bus-info: 0000:0a:00.1
      supports-statistics: yes
      supports-test: yes
      supports-eeprom-access: yes
      supports-register-dump: yes
      supports-priv-flags: no

      может чего то отключить включить посоветуете?

      • Странное поведение catalyst 4948e, !*! fantom, 17:02 , 12-Янв-18 (7)
      • Странное поведение catalyst 4948e, !*! vk, 22:59 , 12-Янв-18 (8)
      • Странное поведение catalyst 4948e, !*! Andrey, 23:21 , 12-Янв-18 (9)
        • Странное поведение catalyst 4948e, !*! kid, 12:49 , 13-Янв-18 (10)
          >> может чего то отключить включить посоветуете?
          > Ну для начала нужно определиться с тем, в какую сторону будете копать
          > проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов
          > _серверов_. Делать предположения что в вашем каталисте происходит, только на основании
          > показаний серверов... ну даже не знаю что сказать...
          > Либо статистика со свитча, либо разбираем проблему на стороне серверов.

          Спасибо все откликнувшимся на проблему, сейчас 4948 снята и перепрошита другой версией иос, так что счетчики обнулились, выкладываю показания в момент когда она стояла на канале и в нее были включены сервера.
          отключил flow control на интерфейсах пропали ошибки TxPauseFrames ,до этого сыпались, потом стал смотреть счетчики на интерфейсах, почему льет в одну очередь когда qos вообще отсутствует в настройках
          Port       Tx-Bytes-Queue-1  Tx-Bytes-Queue-2 Tx-Bytes-Queue-3  Tx-Bytes-Queue-4
          Gi1/8                275988                 0                0                 0
          Port       Tx-Bytes-Queue-5  Tx-Bytes-Queue-6 Tx-Bytes-Queue-7  Tx-Bytes-Queue-8
          Gi1/8                     0                 0                0     2234230990749
          ну и самое главное откуда сыпятся дропы?
          show platform software drop-port
          Drop Port Software State
            Dequeue Enabled           : True
            DropQueue Water mark Reg  : 0x8000600038001D4C
            DropQueue Water mark Reg  : 0x7FE32010
          (Empty, PreEmpty, Head:0xED, Tail:0xED)
            DropActivityCount                : 22236165
            DropOverrunCount                 : 0
          Drop Event Reason            Packets Dropped
          -----------------            ---------------
          RxErrDrop                       16
          SptDrop                         144611
          InpL2AclDrop                    19
          InpL3AclDrop                    46123
          BridgeToRxPortDrop              3541320
          rplErrDrop                      6576714
          TxQueFullDrop                   22799697

          show platform health

          PacketBufRaw              184.29     100%          184.29      100%
          PacketBufRaw             5938.31     100%         5938.31      100%

          Packets Dropped In Processing Overall
          Total                5 sec avg 1 min avg 5 min avg 1 hour avg
          -------------------- --------- --------- --------- ----------
                       2839939         1         0         1          0
          Packets Dropped In Processing by CPU event
          Event             Total                5 sec avg 1 min avg 5 min avg 1 hour avg
          ----------------- -------------------- --------- --------- --------- ----------
          Sa Miss                        2839939         1         0         1          0
          Packets Dropped In Processing by Priority
          Priority          Total                5 sec avg 1 min avg 5 min avg 1 hour avg
          ----------------- -------------------- --------- --------- --------- ----------
          Medium                         2839939         1         0         1          0
          Packets Dropped In Processing by Reason
          Reason             Total                5 sec avg 1 min avg 5 min avg 1 hour avg
          ------------------ -------------------- --------- --------- --------- ----------
          STPDrop                              10         0         0         0          0
          Tx Mode Drop                    2839929         1         0         1          0
          Total packet queues 64
          Packets Received by Packet Queue
          Queue                  Total           5 sec avg 1 min avg 5 min avg 1 hour avg
          ---------------------- --------------- --------- --------- --------- ----------
          Input ACL fwd(snooping)            2108         0         0         0          0
          Host Learning                  2839893         1         0         1          0
          L2 Control                     1170963         0         0         0          0
          Ip Option                           98         0         0         0          0
          Ttl Expired                    3753040         5         0         2          0
          Adj SameIf Fail                8805693         0         0         0          0
          L2 router to CPU, 7            3297553         2         0         1          0
          L3 Glean, 7                    3917159         2         0         1          2
          L3 Fwd, 7                       610579         0         0         0          0
          L3 Receive, 7                  1106106         0         0         0          0
          Packets Dropped by Packet Queue
          Queue                  Total           5 sec avg 1 min avg 5 min avg 1 hour avg
          ---------------------- --------------- --------- --------- --------- ----------
          Adj SameIf Fail                    136         0         0         0          0
          L3 Glean, 7                      13174         0         0         0          0

          никаких колец нет.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру