Nginx 504
Привет,
Прошу общих советов в траблшутинге проблемы (куда копать).
Проблема
В логах nginx'a (который у нас WAF/reverse-proxy) переодически появляются 504 ответы с большим аномальным таймаутом (~ 300 сек - когда проблема, < 0.1 сек - когда нет проблемы), что как бы значит, что приложение/java (или база/oracle, к которому приложение подключено) не отвечают. После перезапуска приложения проблема исчезает.
Стоит заметить, что 504 ошибки на nginx (как и CLOSE_WAIT соединения, см. график 1) появляются постепенно, а потом спайком идут вверх подобно геометрической прогресии. Такое поведение во всех случая проявления этой проблемы.

Одинаковая конфигурация (бд, приложение, WAF) развернута в двух других инфраструктурах и там все работает без этой проблемы. Более того, эти виртуалки были склонированы с рабочей инфраструктуры.
Что было проверено?
Во время проблемы в логах приложения - ничего. Там может быть ноль запросов и нулевая утилизация по ресурсам. По cpu/ram/disk все ок, но есть момент, что проблема возникала каждые 3 дня, и перестала возникать в течении двух недель (до сегодня) после того как апнули в два раза конфигурацию хоста с БД. Но утилизация CPU там все равно не очень критичная (см. график 2).
