Позырил логи
Мне подсказали чудную программу goaccess, которая лихо парсит логи вебсервера. Для оперативного просмотра - самое оно. Естественно, подразумевается что у вас УЖЕ НАСТРОЕНЫ лимиты на nginx и лимиты на фаерволе для новых и параллельных подключений.
То есть, остается всякая “размазанная бяка”, которая прошла грубые фильтры, и мешает жить. Вот реальный лог, за предпоследние сутки:
Первые 5 IP - шлак. Причем самый первый адрес - из яндексовской сетки. Дальше идут поисковики и потом прокси крупных телекомов. К сожалению, в програме не отфильтровать статику, иначе контраст был бы еще более резким. Но тенденции видно.
Суммарное количество запросов, сгруппированное по IP, для определенных страниц, можно посмотреть так:
egrep '"GET /f[0-9]+/ HTTP' access.log | awk '{print $1}' | sort | uniq -c | sort -n | tail -n 100
Как не трудно догадаться, это была выборка по обращениям к первым страницам со списками тем.
Как быстро определить, где фигня - не знаю. Как-то само получается 😃 . Если кто в курсе, какой есть софт, чтобы автоматически трекать изменение характеристик траффика и фильтровать шлак - дайте знать.