Jump to content
  • 6
KorDen

Лаги после 3 дней аптайма (KN-1810)

Question

Практически на всех рабочих версиях 3.00 практически каждый раз (бывают редкие исключения, когда без глюков работает по 10+ дней, от прошивки вроде не зависит - на 3.00.B.0.0-0 было и так и так например) когда аптайм переходит за 3 с лишним дня, начинаю наблюдать характерные глюки.

Замечаю по зависанию (с дальнейшим отвалом по Broken pipe) SSH-сессии до Entware по прошествии времени и невозможности скачать файлы в сотни мегабайт с nginx.

Аналогичным образом виснет сессия и до CLI, даже после отмонтирования Entware. Легко и быстро проявляется, если (после обнаружения первых симптомов) сделать SSH-туннель в сессии до CLI и прогнать через него сотню-другую мегабайт.

Self-test ниже

Edited by KorDen
  • Upvote 1

Share this post


Link to post
Share on other sites

30 answers to this question

Recommended Posts

  • 0

И на 3.1 Alpha 2 всё так же..

~ # uptime
 11:25:35 up 3 days, 15:04,  load average: 0.19, 0.17, 0.14
~ # packet_write_wait: Connection to x.x.x.x port yyyy: Broken pipe
 

Share this post


Link to post
Share on other sites
  • 0

@KorDen Немного странным выглядит огромный размер inotify cache. А если на 3 дня отключить tsmb, то это в какой-то мере поможет?

Share this post


Link to post
Share on other sites
  • 0
В 17.07.2019 в 15:23, Le ecureuil сказал:

огромный размер inotify cache.

Отключение TSMB и USB-устройств не уменьшает его.

---------

Ради интереса - KN-1910 на дефолтных настройках

inotify_inode_mark  32776  32802     56   71    1 : tunables  120   60    8 : slabdata    462    462      0

Она же на 2.15

inotify_inode_mark      0      0     80   48    1 : tunables  120   60    8 : slabdata      0      0      0

 

Edited by KorDen

Share this post


Link to post
Share on other sites
  • 0

Короче, по inotify_inode_mark - там явно где-то +32768. единственный процесс с inotify - avahi

~ # ls -l /proc/*/fd/* | grep inot
lr-x------    1 root     root            64 Jul 18 22:37 /proc/701/fd/9 -> anon_inode:inotify
~ # cat /proc/701/fdinfo/9
pos:    0
flags:  00
mnt_id: 8
inotify wd:2 ino:c94 sdev:d mask:ec8 ignored_mask:0
inotify wd:1 ino:c95 sdev:d mask:ec8 ignored_mask:0

Получается, на 3.00.A.2.0-4 было +8192, а на 3.00.A.2.0-5 уже стало +32768

Edited by KorDen

Share this post


Link to post
Share on other sites
  • 0

3.01.B.1.0-0 - 3-дневные глюки продолжаются

Share this post


Link to post
Share on other sites
  • 0

такая же картина на 1910

повисает web/cli, через какое-то время становится доступен. При этом в целом роутер продолжает работать

Share this post


Link to post
Share on other sites
  • 0

Веселье продолжается... лаги начинаются после аптайма в 3d 03:27...

Share this post


Link to post
Share on other sites
  • 0

Moarinfo. Решил забить на тяжелую артиллерию и заюзать банальный iperf3.

Сервер (3.3) снаружи (на ISP), на роутере (2.3) клиент

Скрытый текст

~ # iperf3 -R -t 20 -b 200M -c 172.17.2.3
Connecting to host 172.17.2.3, port 5201
Reverse mode, remote host 172.17.2.3 is sending
[  5] local 172.17.3.3 port 50318 connected to 172.17.2.3 port 5201
[ ID] Interval           Transfer     Bitrate
[  5]   0.00-1.00   sec  23.9 MBytes   201 Mbits/sec
[  5]   1.00-2.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   2.00-3.00   sec  23.8 MBytes   199 Mbits/sec
[  5]   3.00-4.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   4.00-5.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   5.00-6.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   6.00-7.00   sec  23.8 MBytes   199 Mbits/sec
[  5]   7.00-8.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   8.00-9.00   sec  23.9 MBytes   200 Mbits/sec
[  5]   9.00-10.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  10.00-11.00  sec  23.8 MBytes   199 Mbits/sec
[  5]  11.00-12.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  12.00-13.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  13.00-14.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  14.00-15.00  sec  23.8 MBytes   199 Mbits/sec
[  5]  15.00-16.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  16.00-17.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  17.00-18.00  sec  23.8 MBytes   199 Mbits/sec
[  5]  18.00-19.00  sec  23.9 MBytes   200 Mbits/sec
[  5]  19.00-20.00  sec  23.9 MBytes   200 Mbits/sec
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-20.00  sec   477 MBytes   200 Mbits/sec  1179             sender
[  5]   0.00-20.00  sec   477 MBytes   200 Mbits/sec                  receiver

iperf Done.
~ # iperf3 -t 20 -b 200M -c 172.17.2.3
Connecting to host 172.17.2.3, port 5201
[  5] local 172.17.3.3 port 50338 connected to 172.17.2.3 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  23.9 MBytes   200 Mbits/sec    0    136 KBytes
[  5]   1.00-2.00   sec  23.9 MBytes   200 Mbits/sec    0    136 KBytes
[  5]   2.00-3.00   sec  23.8 MBytes   199 Mbits/sec    0    136 KBytes
[  5]   3.00-4.00   sec  13.4 MBytes   112 Mbits/sec    2   1.41 KBytes
[  5]   4.00-5.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes
[  5]   5.00-6.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes
[  5]   6.00-7.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes
[  5]   7.00-8.00   sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]   8.00-9.00   sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]   9.00-10.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  10.00-11.00  sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes
[  5]  11.00-12.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  12.00-13.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  13.00-14.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  14.00-15.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  15.00-16.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  16.00-17.00  sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes
[  5]  17.00-18.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  18.00-19.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
[  5]  19.00-20.00  sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-20.00  sec  84.9 MBytes  35.6 Mbits/sec    7             sender
[  5]   0.00-20.00  sec  84.8 MBytes  35.6 Mbits/sec                  receiver

iperf Done.

 

Итог навскидку: дохнет TCP при передаче большого объема (десятки-сотни мегабайт) с роутера в сторону ISP, на проходящий через NAT трафик не влияет

  • Thanks 1

Share this post


Link to post
Share on other sites
  • 0

Тэкс.. Я не знаю, что это за чертова ошибка выжившего или какие неучтеные параметры имеют место, но воспроизводится это похоже при строго определенном стечении обстоятельств, логику которых я пока вывести не могу.. Чем дальше в лес, тем толще партизаны...

  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0

@Le ecureuil, тема старая... Но такая же дичь продолжает происходить и на 3.3 Beta 0, как и на всех предыдущих билдах 3.x.

Дохнут TCP-сессии, есть подозрение что только в некоторых вариантах дальнейшей сети за WAN (на ум приходят переходы 1G-10G-40G-10G/LAG-1G и берсты на них, но это же чепухень.. Или нет 😕). Дергаешь все порты, меняешь кучу конфигурации - пока аптайм роутера в промежутке 3d3h - 3d??h - входящий на сам роутер tcp (ssh/https) в части вариантов прохождения пакетов за WAN дохнет по таймауту через рандомное время. Стоит аптайму выйти за это время, или ребутнуть роутер - и всё начинает работать.

Вот как это вообще можно попытаться отдебажить, что может влиять? В system debug ничего за это время вроде бы не видно. Порядком задолбало, но даже не знаю как подступиться к поимке этого мифического лага - ситуация осложняется необходимым аптаймом в промежутке 3d3h - 4d.

 

Одна из бредовых мыслей.. Как-то в принципе можно симулировать аптайм в 3d3h, чтобы всякие ядерные счетчики считали его таковым?

Edited by KorDen
  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0
34 минуты назад, KorDen сказал:

Но такая же дичь продолжает происходить и на 3.3 Beta 0, как и на всех предыдущих билдах 3.x.

Проблема только на 3.х ? а что если откатиться,например, на 2.16 ? или и ранее проблемы были ?

Share this post


Link to post
Share on other sites
  • 0

Moardigging:

Самое ранее падение, которое я замечал на практике - up 3 days,  2:47...

TCP timestamps (jiffies, 250 HZ), если коротко:

0x04 00 00 00 = 67108864 /250=268435 = 3d 02:33:55
0x05 00 00 00 = 83886080 /250=335544 = 3d 21:12:24

"echo 0 > /proc/sys/net/ipv4/tcp_timestamps" убирает таймштампы из пакетов, но не убирает глюки

Кажется гаданием на кофейной гуще, но уж больно складно... Дождусь 3d:21h

Share this post


Link to post
Share on other sites
  • 0

У меня ровно через 3 дня перестают воспроизводится файлы по dlna только на старых телевизорах LG и только mkv )) дичь какая-то) перезагружаешь роутер и опять все нормально.

  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0
2 часа назад, KorDen сказал:

0x05 00 00 00 = 83886080 /250=335544 = 3d 21:12:24

Итого: где-то после этого времени за несколько минут была куча лагов, в 21:16:39 последний замеченный лаг и дальше как рукой сняло.

4 минуты с небольшим - это  0xFFFF (65535 тиков)

Wuuut.

  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0

А я то думал что у меня флешка отваливается :)

Смотрел сериалы по tsmb, начались лаги, полез смотреть логи, в логах ничего, uptime был 3 дня 4 часа.

Сейчас uptime 3 дня 10 часов и лаги продолжаются, за 30-минутную серию можно словить 2-4 раза примерно секунд по 15-20, а можно и ни разу.

Стоит 3.1.10 release.

Решил поискать по форуму и вот наткнулся на эту тему.

Share this post


Link to post
Share on other sites
  • 0
1 час назад, Supermaks сказал:

tsmb

Я наблюдал глюки только снаружи, причем не во всех случаях. Впрочем, было бы интересно, если бы вы проверили при аптайме в 4 и более дня (точнее, 3d 21h 16m+), ничего не трогая. Если глюки сохранятся - не оно. А вот если пропадут - значит я не одинок.

  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0

Хм... тоже надо попробовать ничего не трогать до 4-5 дней аптайма. Прошился еще на 3.3 бета 1, проверим) 

Share this post


Link to post
Share on other sites
  • 0
В 08.11.2019 в 15:55, Space Alex сказал:

У меня ровно через 3 дня перестают воспроизводится файлы по dlna только на старых телевизорах LG и только mkv )) дичь какая-то) перезагружаешь роутер и опять все нормально.

У меня тоже самое на EXTRA II. Включаешь фильм, несколько минут идёт нормально, затем останавливается, крутиться значок загрузки. Так происходит примерно каждые три дня, помогает только перезапуск роутера. Телевизор LG 49UJ634V 2017 года, не так чтобы уж очень старый.

  • Upvote 1

Share this post


Link to post
Share on other sites
  • 0

На 3.3 beta 1 наблюдаю тоже самое, 3 дня аптайм и все, mkv не проигрываются с сообщением на тв - неверный формат файла. В этот момент на сервере dlna наблюдаются множественные соединения с этого тв вместо одного, при этом ошибок в логе нет. На тв с webos в этот момент все нормально проигрывается.... Странно как-то... Посмотрим что будет дальше, пока перезагружать не буду, подожду 4 дня. @enpa @Le ecureuil

Share this post


Link to post
Share on other sites
  • 0
В 09.11.2019 в 23:34, KorDen сказал:

Впрочем, было бы интересно, если бы вы проверили при аптайме в 4 и более дня (точнее, 3d 21h 16m+), ничего не трогая. Если глюки сохранятся - не оно. А вот если пропадут - значит я не одинок.

Наблюдения: 3 дня 23 часа, 4 дня 12 часов, сейчас 5 дней 9 часов - лагов нет.

Share this post


Link to post
Share on other sites
  • 0
47 минут назад, Supermaks сказал:

Наблюдения: 3 дня 23 часа, 4 дня 12 часов, сейчас 5 дней 9 часов - лагов нет.

Забавно. TSMB, да и вообще локальный доступ ко всему у меня не лагает, проблема только снаружи, да и то не во всех случаях.

Еще одна рандомная мысль, если уж действительно у вас окажется схожая проблема: а клиент, с которого смотрели, к роутеру как подключен? Проводом или по WiFi? Если проводом - напрямую в роутер в LAN, или как-то иначе? Клиент гигабитный или соточный?

Share this post


Link to post
Share on other sites
  • 0
3 минуты назад, KorDen сказал:

Еще одна рандомная мысль, если уж действительно у вас окажется схожая проблема: а клиент, с которого смотрели, к роутеру как подключен? Проводом или по WiFi? Если проводом - напрямую в роутер в LAN, или как-то иначе? Клиент гигабитный или соточный?

Смотрел с 2 клиентов, один по Wifi, другой проводом 100 напрямую в роутер, лаги были на обоих.

Share this post


Link to post
Share on other sites
  • 0

Мистика! У меня тоже после аптайме 3 дня 23 часа становится все нормально, как-будто ничего и не было)) опять все нормально проигрывает. @enpa @Le ecureuil обратите пожалуйста внимание на проблему.

Share this post


Link to post
Share on other sites
  • 0

Засунул htop под скрином в SSH-сессии снаружи... Сессия сдохла на 3 days, 02:44:58.

Share this post


Link to post
Share on other sites
  • 0
25 минут назад, Keenetic сказал:

А я то думаю чего DLNA отваливается и видео подвисает kn-1810

Нас таких уже очень много))

Share this post


Link to post
Share on other sites
  • 0
12 часа назад, KorDen сказал:

Засунул htop под скрином в SSH-сессии снаружи... Сессия сдохла на 3 days, 02:44:58.

У меня "полусдох" интернет 🙄 Интернета нет, но сессия есть. И доступ снаружи к вебу есть...

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...