Jump to content

umka

Forum Members
  • Posts

    48
  • Joined

  • Last visited

Posts posted by umka

  1. День добрый,

    Прошивка 2.14.C.0.0-4 - замечена странность. При копировании wifi (5G) -> eth - на потоке всего 10мб/с - загрузка CPU 35%-51% основное время занимает soft irq.При трафике eth->wifi - 30мб/с дают загрузку всего 30% и опять же основное время в soft irq. (поставлен entware и запущен top). Если заменить wifi на eth, то eth<>eth дает скорости 35мб/с write, 62мб/с read.

    В качестве нагрузки выступают afp/smb шары, копирование dd if=file of=/dev/null bs=1m count=1000 и dd if=/dev/zero of=file bs=1m count=1000.

     

     

  2. после очередного обновления на 2.10-A вернулась ошибка которая была на 2.09

     

    "<6>PPPoE/IPoE LAN software acceleration is disabled",
    "<6>br0: port 3(rai0) entered disabled state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>EIP93: Started (v 4.3.0.0-21)",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<7>br0: no IPv6 routers present",
    "<6>ACS result: primary channel 36, 80 MHz spectrum min dirty (with CCA) = 0",
    "<6>ACS result: primary channel 9, 40 MHz spectrum min dirty (with CCA) = 270",
    "<7>ra0: no IPv6 routers present",
    "<7>rai0: no IPv6 routers present",
    "<6>AP 5GHz: run channel auto-switch",
    "<6>ACS result: primary channel 36, 80 MHz spectrum min dirty (with CCA) = 0",
    "<4>Unhandled kernel unaligned access[#1]:",
    "<4>Cpu 1",
    "<4>$ 0   : 00000000 00000001 8cef7f78 00000018",
    "<4>$ 4   : 51ce01f6 8da0c740 8fc61b80 8d436390",
    "<4>$ 8   : 8fc61ae4 8d436390 00000004 000000af",
    "<4>$12   : 0000005c 00000034 0000007b 0000000e",
    "<4>$16   : 00000001 8da0c740 00000003 c0b11000",
    "<4>$20   : 100201c0 00010000 8da0c740 8cef7080",
    "<4>$24   : 0000006f 00000088                  ",
    "<4>$28   : 8fc60000 8fc61c98 8cef7060 801c1da4",
    "<4>Hi    : 00000003",
    "<4>Lo    : 0000000a",
    "<4>epc   : 8008a730 put_page+0x0/0x50",
    "<4>    Tainted: P           O",
    "<4>ra    : 801c1da4 skb_release_data+0x84/0xd8",
    "<4>Status: 1100fc03    KERNEL EXL IE ",
    "<4>Cause : 00800010",
    "<4>BadVA : 51ce01f6",
    "<4>PrId  : 0001992f (MIPS 1004Kc)",
    "<4>Modules linked in: esp4_hw(O) crypto_k(PO) fastvpn(PO) hw_nat(O) igmpsn(PO) mt76x2_ap(O) ntc(PO) mt7621_eth(PO) rndis_host cdc_ether huawei_cdc_ncm asix option cdc_ncm usb_wwan usbextras(PO) authenc nls_utf8 kalmia cp210x thfsplus(O) nls_cp1251 usb_storage cdc_acm l2tp_ppp usblp dm9601 sd_mod sr_mod xhci_hcd nls_cp437 hw_cdc_net(O) sierra sg usbnet ext4 tfat(PO) nf_nat_sip deflate ipcomp nls_cp866 tntfs(PO) pl2303 algif_skcipher jffs2 cdc_wdm nf_nat_ftp ftdi_sio algif_hash ch341 usbserial nf_nat_pptp usbcore nf_conntrack_pptp pcrypt lzo_decompress xt_string cdrom resetnds(PO) hmac des_generic mtdoops_proc(O) xfrm4_mode_beet nacct(PO) xt_comment sha256_generic xt_ecn ipt_ECN xfrm_ipcomp rt_timer_wdg xt_esp zlib_deflate ipt_ah jbd2 nls_base aes_generic xt_hl pppol2tp(O) xt_dscp lzo_compress xfrm_user nf_conntrack_proto_gre phr(PO) mbcache xt_length nf_conntrack_ftp ip6t_ah ipt_ROUTE xt_policy af_key ip_gre xt_CLASSIFY zlib_inflate nf_conntrack_sip xt_statistic loop xfrm4_mode_tunnel md5 xt_DSCP l2tp_core scsi_mod af_alg crypto_null xfrm4_mode_transport cbc aead usb_common nf_nat_proto_gre ah4 xfrm4_tunnel",
    "<4>Process swapper/1 (pid: 0, threadinfo=8fc60000, task=8fc52d90, tls=00000000)",
    "<4>Stack : 8cef709a 8fc61d10 00000000 8d69c5c8 c0d11000 8da0c740 c0b01000 801c1e14",
    "<4>        100201c0 00010000 8da0c740 8cef7080 c0d11000 8d619520 27d0e840 280de800",
    "<4>        8fc61d2d 0001fa32 8fc61d2c 00000000 0cef7060 c1e40000 00000000 004801e4",
    "<4>        8cef7060 8fc61cf4 8cef7064 8cef7080 8da0c740 8cef709a 0042fffe 01000018",
    "<4>        0000aa04 c4dedd00 00bb2920 20040000 00000002 803a0000 c0b01000 00000001",
    "<4>        ...",
    "<4>Call Trace:",
    "<4>[<8008a730>] put_page+0x0/0x50",
    "<4>[<801c1da4>] skb_release_data+0x84/0xd8",
    "<4>",
    "<4>",
    "<4>Code: 00000000  1000ffa8  00000000 <8c820000> 3042c000  1440000f  00801821  8c820010  24820010 ",
    "<4>Kernel bug detected[#2]:",

    До обновления точка проработала почти месяц без проблем.

  3. Обновил на 2.10.A.5.0-7, из замеченных особенностей - через сафари обновить через образ нельзя. Сафари начинает жрать 100% CPU и не обновляет, Chome вполне себе обновляет.

    Упала загрузка CPU, и вместе с ним увеличилась скорость передачи с NAS с 9 до 12 мб/с. при 12 мб/с - загрузка 30% а не 50% при 9 (как было с 2.09-C-03). Причем скорость асимметричная - запись 12мб/с - чтение 18мб/с - при этом при записи загрузка CPU - 30%-40%, при чтении 20%-30%,

    так что объяснить это только нагрузкой NAS - я могу с трудом.

  4.  

    Но для анализа надо бы сами модули с debuginfo или соотвествующие пакеты, а не просто некоторые исходники - которые еще надо собрать так что бы совпадало байт в байт.

     

     

  5. И того очередной ребут.

    Цитата

                 "oops": { 
                     "origin": "kernel",
                         "version":" 2.09.C.0.0-3", 
                         "board": "kng_re", 
                         "hash": "71cbf766", 
                         "content": [" interface driver dm9601",
    "<6>usbcore: registered new interface driver cdc_acm",
    "<6>cdc_acm: USB Abstract Control Model driver for USB modems and ISDN adapters",
    "<6>Initializing USB Mass Storage driver...",
    "<6>usbcore: registered new interface driver usb-storage",
    "<6>USB Mass Storage support registered.",
    "<6>Tuxera HFS+ driver 3016.7.4",
    "<6>usbcore: registered new interface driver cp210x",
    "<6>USB Serial support registered for cp210x",
    "<6>usbcore: registered new interface driver kalmia",
    "<6>USB extras loaded",
    "<6>usbcore: registered new interface driver cdc_ncm",
    "<6>usbcore: registered new interface driver option",
    "<6>USB Serial support registered for GSM modem (1-port)",
    "<6>usbcore: registered new interface driver asix",
    "<6>usbcore: registered new interface driver huawei_cdc_ncm",
    "<6>usbcore: registered new interface driver cdc_ether",
    "<6>usbcore: registered new interface driver rndis_host",
    "<6>mt7621_eth: Ethernet switch driver for MediaTek MT7621",
    "<6>mt7621_eth: (C) 2016-2017, NDM Systems Inc., v1.1.50",
    "<6>mt7621_eth: MT7621 SoC, TX/RX descriptors: 1024/1024, NAPI weight 64",
    "<6>mt7621_eth: eth2 created for GMAC1 (58:8b:f3:67:00:84 address, 4 EPHY ports)",
    "<6>mt7621_eth: eth3 created for GMAC2 (58:8b:f3:67:00:85 address, 1 EPHY port)",
    "<6>mt7621_eth: MT7530 switch initialized",
    "<6>PCI: Enabling device 0000:01:00.0 (0000 -> 0002)",
    "<6>MT76x2 AP Driver version: 3.0.5.0",
    "<6>PCI: Enabling device 0000:02:00.0 (0000 -> 0002)",
    "<6>MT76x2 AP Driver version: 3.0.5.0",
    "<6>device eth2.1 entered promiscuous mode",
    "<6>device eth2 entered promiscuous mode",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered disabled state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>device ra0 entered promiscuous mode",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 2(ra0) entered disabled state",
    "<6>br0: port 1(eth2.1) entered disabled state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>device rai0 entered promiscuous mode",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 3(rai0) entered disabled state",
    "<6>br0: port 2(ra0) entered disabled state",
    "<6>br0: port 1(eth2.1) entered disabled state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 1(eth2.1) entered forwarding state",
    "<6>igmpsn: IGMP switch snooping module (C) 2015-2017 NDM Systems Inc., v4.0.35",
    "<6>br0: port 2(ra0) entered disabled state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>br0: port 3(rai0) entered disabled state",
    "<7>eth2: no IPv6 routers present",
    "<6>br0: port 2(ra0) entered forwarding state",
    "<6>usb 1-1: new full-speed USB device number 2 using xhci-hcd",
    "<6>usb 1-1: New USB device found, idVendor=1410, idProduct=4100",
    "<6>usb 1-1: Product: Novatel Wireless CDMA",
    "<6>usb 1-1: Manufacturer: Novatel Wireless Inc.",
    "<6>usb 1-1: SerialNumber: 091078072171000",
    "<6>option 1-1:1.0: GSM modem (1-port) converter detected",
    "<6>usb 1-1: GSM modem (1-port) converter now attached to ttyUSB0",
    "<6>option 1-1:1.1: GSM modem (1-port) converter detected",
    "<6>usb 1-1: GSM modem (1-port) converter now attached to ttyUSB1",
    "<6>option 1-1:1.2: GSM modem (1-port) converter detected",
    "<6>usb 1-1: GSM modem (1-port) converter now attached to ttyUSB2",
    "<6>option 1-1:1.3: GSM modem (1-port) converter detected",
    "<6>usb 1-1: GSM modem (1-port) converter now attached to ttyUSB3",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<6>scsi0 : usb-storage 1-1:1.4",
    "<6>Ralink/MTK HW NAT 5.0.2.0-8 Module Enabled, FoE Size: 16384",
    "<6>SWNAT sizeof(bind) = 204",
    "<6>SWNAT sizeof(hashent) = 56",
    "<6>SWNAT is registered",
    "<6>SWNAT enabled",
    "<6>SWNAT caps: L2TP, PPTP, PPPoE, IPoE, MC, USB CDC/DSL",
    "<6>Fast VPN init, v4.0-100",
    "<6>PPPoE/IPoE LAN software acceleration is disabled",
    "<7>eth2.1: no IPv6 routers present",
    "<6>EIP93: Started (v 4.3.0.0-20)",
    "<6>br0: port 3(rai0) entered forwarding state",
    "<7>eth3: no IPv6 routers present",
    "<6>scsi 0:0:0:0: Direct-Access     Novatel  MMC Storage      2.31 PQ: 0 ANSI: 2",
    "<6>sd 0:0:0:0: Attached scsi generic sg0 type 0",
    "<6>sd 0:0:0:0: [sda] Attached SCSI removable disk",
    "<6>ACS result: primary channel 7, 40 MHz spectrum min dirty (with CCA) = 0",
    "<6>ACS result: primary channel 36, 80 MHz spectrum min dirty (with CCA) = 0",
    "<7>br0: no IPv6 routers present",
    "<7>ra0: no IPv6 routers present",
    "<7>rai0: no IPv6 routers present",
    "<6>IPv4 conntrack wan: flushed 4 entries with address 130.255.143.3",
    "<6>IPv4 conntrack wan: flushed 884 entries with address 130.255.143.3",
    "<6>AP 5GHz: run channel auto-switch",
    "<6>ACS result: primary channel 149, 80 MHz spectrum min dirty (with CCA) = 0",
    "<6>AP 5GHz: run channel auto-switch",
    "<6>ACS result: primary channel 36, 80 MHz spectrum min dirty (with CCA) = 359",
    "<4>Unhandled kernel unaligned access[#1]:",
    "<4>Cpu 1",
    "<4>$ 0   : 00000000 00000000 af4428ce af4428be",
    "<4>$ 4   : af4428be 8dcf86c0 00000008 8c8ecd90",
    "<4>$ 8   : 00000000 8c8ecd90 0000004c 00000028",
    "<4>$12   : 0000009c 00000051 000000da 0000000e",
    "<4>$16   : 00000001 8dcf86c0 00000001 c0a91000",
    "<4>$20   : 100201c0 00010000 8dcf86c0 8bcd6080",
    "<4>$24   : 00000038 00000004                  ",
    "<1>CPU 0 Unable to handle kernel paging request at virtual address 1128003b, epc == 801f9610, ra == 801f9634",
    "<4>",
    "<4>$28   : 8fc60000 8fc61ca8 8bcd6060 801c20f0",
    "<4>Hi    : 00000003",
    "<4>Lo    : 0000000a",
    "<4>epc   : 8008ac04 put_page+0x18/0x50",
    "<4>    Tainted: P           O",
    "<4>ra    : 801c20f0 skb_release_data+0x8c/0xe0",
    "<4>Status: 1100fc03    KERNEL EXL IE ",
    "<4>Cause : 00800010",
    "<4>BadVA : af4428ce",
    "<4>PrId  : 0001992f (MIPS 1004Kc)",
    "<4>Modules linked in: esp4_hw(O) crypto_k(PO) fastvpn(PO) hw_nat(O) igmpsn(PO) mt76x2_ap(O) mt7621_eth(PO) rndis_host cdc_ether huawei_cdc_ncm asix option cdc_ncm usb_wwan usbextras(PO) authenc nls_utf8 kalmia cp210x thfsplus(O) nls_cp1251 usb_storage cdc_acm dm9601 sd_mod sr_mod xhci_hcd nls_cp437 hw_cdc_net(O) sierra sg usbnet ext4 tfat(PO) nf_nat_sip deflate ipcomp nls_cp866 tntfs(PO) pl2303 algif_skcipher jffs2 cdc_wdm nf_nat_ftp ftdi_sio algif_hash ch341 usbserial nf_nat_pptp usbcore nf_conntrack_pptp pcrypt lzo_decompress xt_string cdrom resetnds(PO) hmac des_generic mtdoops_proc(O) xfrm4_mode_beet nacct(PO) xt_comment sha256_generic xt_ecn ipt_ECN xfrm_ipcomp rt_timer_wdg xt_esp zlib_deflate ipt_ah jbd2 nls_base aes_generic xt_hl pppol2tp(O) xt_dscp lzo_compress xfrm_user nf_conntrack_proto_gre phr(PO) mbcache xt_length nf_conntrack_ftp ip6t_ah ipt_ROUTE xt_policy af_key ip_gre xt_CLASSIFY zlib_inflate nf_conntrack_sip xt_statistic loop xfrm4_mode_tunnel md5 xt_DSCP scsi_mod af_alg crypto_null xfrm4_mode_transport cbc aead usb_common nf_nat_proto_gre ah4 xfrm4_tunnel",
    "<4>Process swapper/1 (pid: 0, threadinfo=8fc60000, task=8fc52d90, tls=00000000)",
    "<4>Stack : 8bcd609a 8fc61d20 c0a81000 8d69d03c c0c91000 8dcf86c0 c0a81000 801c2160",
    "<4>        100201c0 00010000 8dcf86c0 8bcd6080 c0c91000 8d61999c 25ab988d 25e89700",
    "<4>        8fc61d3d 00000003 8fc61d3c 00000000 0bcd6060 c0340000 00000000 00080034",
    "<4>        8bcd6060 8fc61d04 8bcd6064 8bcd6080 8dcf86c0 8bcd609a 0042fffa 01000014",
    "<4>        00000002 b8c6cb00 00c3de20 2000f100 00000000 803a0000 c0a81000 00000001",
    "<4>        ...",
    "<4>Call Trace:",
    "<4>[<8008ac04>] put_page+0x18/0x50",
    "<4>[<801c20f0>] skb_release_data+0x8c/0xe0",
    "<4>[<801c2160>] __kfree_skb+0x1c/0xe0",
    "<4>[<8d61999c>] rtmp_rx_done_handle+0x488/0x674 [mt76x2_ap]",
    "<4>[<8d6af240>] rt2860_interrupt+0x12a0/0x1434 [mt76x2_ap]",
    "<4>[<80073fe4>] handle_irq_event_percpu+0x138/0x1f4",
    "<4>",
    "<4>",
    "<4>Code: 00801821  8c820010  24820010 <c0450000> 24a4ffff  e0440000  1080fffc  00000000  24020001 ",
    "<4>Oops[#2]:",
    "<4>---[ end trace af4321548e311315 ]---"] 
                   } 
             }

    На NAS в syslog пусто как в танке. 

     

    Из активности в тот момент 

    openconnect --no-dtls --juniper  .... 

    по которому бегал ssh на тестовую машину.

    и openvpn с udp инкапсуляцией с ноута в мир через который в этот момент смотрелись странички.  Локального трафика не должно было быть (AFP отмонтирован, TM - бэкапится ночью), второй ноут и остальные потребители - выключены. 

    Но при периодическом подглядывании в логи - видно что иногда пытаются мучать pptpd с наружи. 

    Попробую в выходные перебиться на 2.10 - поглядим что и как.

  6. для того что бы копаться просто так -  мне надо понимать где возник фрагмент - это была фрагментированные данные или заголовок. Это очень специфические ситуации - и проверить их глазами в целом не сложно. А там глядишь и удастся воспроизводить. Но для этого мне нужны debuginfo от ядра + исходники.

    пока что с -03 только тормоза при копировании NAS <> eth <> wifi <> MAC. Скорость не выше 9мб/с и при этом загрузка CPU 50% - как я понимаю это 100% на одном ядре.

  7.  Вы только что подтвердили что причина одна и та же. Я бы сказал - что каким-то образом не выровненый указатель оказался в списке фрагментов - и там и тут.

    а привести вывод gdb или выложить debuginfo сложно ?

  8. 6 часов назад, vasek00 сказал:

    Извините за не скромный вопрос, который не имеет отношения к перегрузкам , а можно по конкретней - про реальность мира (посмотреть почитать) где применяется нужность правил NOTRACK (в примерах к сегодняшним роутерам).

     

    Любой сервис в котором куча udp трафика. Теже ip-tv, dns сервера, vpn с UDP инкапсуляцией, ... Любой из этих сервисов будет забивать conntrack table, что будет требовать все больших ресурсов на обработку каждого входящего пакета и возможные отказы при обслуживании так как conntrack заблокировал создание нового соединения. Мы же не говорим о скоростях 1Мбит которые переживет всякий.

  9. прошу прощения NDM... если для вас stack trace падения это просто надписи.. то я прям и не знаю.. Блин.. 12 лет дебажу ядро линукса и первый раз вижу что бы кто-то из службы поддержки называл это надписями.

    из сообщений в китайском форуме

    Цитата

    [ 197.080000] Call Trace:
    [ 197.080000] [<8007594c>] put_page+0x0/0x4c
    [ 197.080000] [<801d5d20>] skb_release_data+0x9c/0xfc
    [ 197.080000] [<801d5dd0>] __kfree_skb+0x14/0xd0
    [ 197.080000] [<828396ac>] dev_rx_mgmt_frm+0x1f4/0x214 [mt_wifi]
    [ 197.080000] [<8283a83c>] rtmp_rx_done_handle+0x4c4/0x4f8 [mt_wifi]
    [ 197.080000] [<82872a68>] mt_mac_int_4_tasklet+0xfcc/0x10ac [mt_wifi]

    из моего self test

    Цитата

    "<4>Call Trace:",
    "<4>[<8008abec>] put_page+0x0/0x50",
    "<4>[<801c20f0>] skb_release_data+0x8c/0xe0",
    "<4>[<801c2160>] __kfree_skb+0x1c/0xe0",
    "<4>[<8d6199a4>] rtmp_rx_done_handle+0x488/0x674 [mt76x2_ap]",
    "<4>[<8d6af210>] rt2860_interrupt+0x12a0/0x1434 [mt76x2_ap]",
    "<4>[<80073fe4>] handle_irq_event_percpu+0x138/0x1f4",

     

    оба случая случились при попытке skb_release_data и скорее всего это (цитата по RHEL 7.3 - вредли код менялся сильно)

    Цитата

    static void skb_release_data(struct sk_buff *skb)
    {
            if (!skb->cloned ||
                !atomic_sub_return(skb->nohdr ? (1 << SKB_DATAREF_SHIFT) + 1 : 1,
                                   &skb_shinfo(skb)->dataref)) {
                    if (skb_shinfo(skb)->nr_frags) {
                            int i;
                            for (i = 0; i < skb_shinfo(skb)->nr_frags; i++)
                                    skb_frag_unref(skb, i);
                    }

                    /*
                     * If skb buf is from userspace, we need to notify the caller
                     * the lower device DMA has done;
                     */
                    if (skb_shinfo(skb)->tx_flags & SKBTX_DEV_ZEROCOPY) {
                            struct ubuf_info *uarg;

                            uarg = skb_shinfo(skb)->destructor_arg;
                            if (uarg->callback)
                                    uarg->callback(uarg, true); <<< тут 
                    }

                    if (skb_has_frag_list(skb))
                            skb_drop_fraglist(skb);  << тут

                    skb_free_head(skb);
            }
    }

    больше мыслей кому понадобился __put_page как бы нет, уж больно не специфическая для сетевого стека операция.

    что означает что кто-то подсунул в созданный SKB не выровненный указатель - если вы выложите в обсуждение результат 

    Цитата

    gdb vmlinux
    l *(skb_release_data+0x8c)

    то можно будет прояснить чуть больше о том что случилось.

     

  10. порт 6667 был выбран как пример правила, тут же был дан пример реального использования (и нужности) правил NOTRACK (так сказать из реального мира).

    Кроме того у вас есть self test в котором есть вся нужная информация. На вопрос что ж это за баг в драйвере который вызывает unaligned access и как это связано с тем что у меня где-то стоит, я не увидел ответа. Этот баг есть не только у вас, в каком-то китайском дистрибутиве он тоже засветился - на ядре 3.18. 

    http://sns.widora.io/topic/121/mt7688-0-1-6版本-wifi驱动挂掉/4

    Как я могу предположить именно unaligned access и ответственен за спонтанные перезагрузки, а проблема с количеством conntrack rules всплыла только как не соответствие реального количества правил в proc ip_conntrack и размера slab ответственного за хранение, что навело на мысли о утечке памяти в этой области и возможном варианте с OOM и panic on OOM вызывающем перезагрузку.

  11. > Не "у нас", а в Linux kernel. Так положено.
     

    Простите - но "у вас". Connection tracking задумывался как средство фильтрации трафика исходя из состояния соединения. В тоже время протокол UDP таких состояний не имеет по определению, являясь state less протокол. Второе применение это protocol helpers - по определению применяется только для транзитного трафика, а не для трафика из цепочки Input.

    Так что "положено" оно в строго определенных случаях, а не всегда и везде. Почему-то powerDNS рекомендует засовывать трафик по 53 порту в notrack если не хочется проблем.

    https://doc.powerdns.com/md/recursor/performance/

    х

  12. unknown  2 347 src=192.168.1.44 dst=224.0.0.2 packets=3 bytes=96 [UNREPLIED] src=224.0.0.2 dst=192.168.1.44 packets=0 bytes=0 mark=0 use=2

     

    получается что даже мультикаст попадает у вас в conntrack.. который состояний то не имеет. это же не tcp в конце концов.

  13.  

    > + transmission. (по факту стоит enterware-ng - самосборная с uClibc)

     

    на DLink DNS-345 - сначала поставил qnapware - потом перешел на enterware-ng, но в связи с тем что новый glibc не поддерживает ядро 2.6.31 которое является базой для NAS, пришлось самому собрать enterware-ng - выбрав uClibc в качестве системной либы, иначе afpd - рушился по причине отсутствия реализации какого-то syscall в старом glibc /уже не помню что там было/.приходилось отключать cnid_dbd - что не лучшим образом сказывалось на стабильности.

  14. Это хвост от 

    1) Opkg нету в роутере уже месяца 2, как порушило ext4. Физически нет флэшки;

    2) zram - хвост от попытки почитать хэлп в консоли, за вчера - уже после того как топик создал.. если подскажете как убрать - буду рад. zram off / zram 0 - не срабатывает, no zram ? в консольном хелпе нету ничего на этот счет.

    3) transmission - на соседней железке подключеной по eth. отключить наверно его можно - но это просто уменьшение трафика через точку. Если она мрет просто от транзитного трафика - это странно.


     

  15. Обычная домашняя сетка. Ну или почти обычная.

    NAS Dlink-345 - на котором крутится AFP (share + time machine) + DLNA + ntpd (так как на роутере поднять ntpd без opkg не получается - а флэшка с ним решила подбить ext4) + rsync server + transmission. (по факту стоит enterware-ng - самосборная с uClibc)

    Ноут жены, там веб + yandex music.

    Мой ноут - openvpn с udp инкапсуляцией для доступа к гуглу, + конторский VPN (openconnect в junuper mode, порезаный и использующий ssl инкапсуляцию) + стопка всякого веба (jira/gerrit/git ....). Машина девелопера одним словом.

    Иногда включается 1-2 ноды из тестовой машинки https://www.supermicro.com/products/system/2U/6026/SYS-6026TT-BTF.cfm - но крайне редко, слишком шумная штука.

    Smart TV - на котором гоняются мультики с NAS, местами в 1080p. Удивил тем что зацепился за 5G сетку - хотя телек не сильно новый.

    2 Ipad, 2 iphone.. 

    МФУ - Samsung 3400.

    Иногда включалось Андроидная приставка для Air Mirror - подключена по ethernet, но уже месяца 2 пылится на полке.

     Постоянно работают только мой ноут и NAS, остальное время от времени.

    на usb модем можно не смотреть - это последние вырубание света, работать надо было - воткнул, обычно его нету.

    PS. если вы добавите в сборку модуль netconsole что бы слить вывод ядра от паники (если таковая случается) по syslog, то это было бы проще.

    PPS. iptables -t raw -A PREROUTING -p tcp --dport 6667 -j NOTRACK - ... вполне вырубает лишнее из conntrack но возможности добавить custom cmd в загрузку у вас нету.

    • Thanks 1
  16. к слову зачем локальный трафик совать в conntrack которого и так мало?

    udp      17 23 src=192.168.1.2 dst=192.168.1.1 sport=35915 dport=53 packets=1 bytes=70 src=192.168.1.1 dst=192.168.1.2 sport=53 dport=35915 packets=1 bytes=70 mark=0 use=2
    udp      17 23 src=192.168.1.2 dst=192.168.1.1 sport=37867 dport=53 packets=1 bytes=70 src=192.168.1.1 dst=192.168.1.2 sport=53 dport=37867 packets=1 bytes=70 mark=0 use=2

    bash-3.2$ grep "src=192.168.1.* dst=192.168.1.1" self-test\ \(2\).txt  | wc -l
          49

     

  17. в self test очень забавная ругань.

    "<4>Unhandled kernel unaligned access[#1]:",
    "<4>Cpu 1",
    "<4>$ 0   : 00000000 00000001 8fdd7f78 00000018",
    "<4>$ 4   : c8b45d83 8f41b0a0 00000008 8f67e790",
    "<4>$ 8   : 00000000 8f67e790 00000026 00000028",
    "<4>$12   : 0000000f 0000003d 0000000d 0000001a",
    "<4>$16   : 00000001 8f41b0a0 00000002 c0a91000",
    "<4>$20   : 100201c0 00010000 8f41b0a0 8fdd7080",
    "<4>$24   : 000000ed 00000004                  ",
    "<4>$28   : 8fc60000 8fc61ca8 8fdd7060 801c20f0",
    "<4>Hi    : 00000003",
    "<4>Lo    : 0000000a",
    "<4>epc   : 8008abec put_page+0x0/0x50",
    "<4>    Tainted: P           O",
    "<4>ra    : 801c20f0 skb_release_data+0x8c/0xe0",
    "<4>Status: 1100fc03    KERNEL EXL IE ",

     

    ну и стопка файлов которые скрипт не нашел - типа proc ip_conntrack

    self-test (1).txt

    • Thanks 1
  18. Такое впечатление что conntract не чистится. Сейчас поднял до 24000 лимит. через 4 минуты опять привышение.  попробуем координально поднять до 120 000.

    Если опять будет - надо реанимировать ssh доступ и смотреть что там и как в proc..

×
×
  • Create New...