tspu-docs/chapters/22.md

# 22. Балансировщик: мониторинг и диагностика

[← Оглавление](../README.md) · [← Раздел 21: Балансировщик: конфигурация](21.md)

---

Балансировщик предоставляет набор команд для мониторинга аппаратного состояния, проверки прошивок, диагностики портов, анализа правил фильтрации и контроля групп балансировки. Все команды мониторинга выполняются в **операционном режиме**.

## 22.1. `show hardware info` — CPU, память, вентиляторы, БП, температура

Команда `show hardware info` с различными ключевыми словами отображает состояние аппаратных компонентов балансировщика:

| Команда                          | Описание                                    |
| -------------------------------- | ------------------------------------------- |
| `show hardware info cpu`         | Нагрузка на процессор (микросервер)         |
| `show hardware info memory`      | Состояние оперативной памяти                |
| `show hardware info fans`        | Состояние вентиляторов                      |
| `show hardware info power`       | Состояние блоков питания                    |
| `show hardware info temperature` | Показания температурных датчиков            |
| **`show hardware info all`**     | **Вся информация** по всем компонентам      |

Для быстрой проверки общего состояния платформы удобно использовать `show hardware info all` — команда выводит полную картину по всем аппаратным подсистемам.

> **Практический случай:** именно через мониторинг температурных датчиков была выявлена проблема с зависаниями балансировщиков весной — BMC некорректно считывал показания датчика, ошибочно определял перегрев и выключал микросервер (подробнее — в [разделе 20.4.3](20.md)).

## 22.2. `show mng if` — management-интерфейс

Команда `show mng if` отображает текущее состояние management-интерфейса:

- **IP-адрес**;
- **Маска подсети**;
- **Default gateway**;
- **Состояние интерфейса** (up/down).

Команда полезна для быстрой проверки параметров управления после настройки или перезагрузки устройства.

## 22.3. `show rdp firmware version` — версии прошивок, tries

Команда `show rdp firmware version` выводит полную информацию о состоянии прошивок:

```text
    Current active firmware: A

    Partition A:
      Status:  active
      Version: 2.4.1
      Tries:   0

    Partition B:
      Status:  inactive
      Version: 2.3.8
      Tries:   0
```

| Параметр          | Описание                                                              |
| ----------------- | --------------------------------------------------------------------- |
| **Current active**| Какой раздел (A или B) является текущим активным                      |
| **Status**        | `active` или `inactive` для каждого раздела                           |
| **Version**       | Номер версии прошивки в разделе                                       |
| **Tries**         | Счётчик попыток загрузки с данного раздела                            |

### Параметр Tries

В нормальном состоянии **Tries = 0**. Ненулевое значение означает, что балансировщик предпринимал неудачные попытки загрузки с этого раздела.

Если балансировщик **более 3 раз подряд** за ~20 минут не смог загрузиться с определённого раздела, прошивка считается **ненадёжной** и происходит автоматический rollback на другой раздел (подробнее — в [разделе 21.2.1](21.md)).

Для сброса счётчика используется команда `call rdp firmware reset-tries`.

## 22.4. Состояние портов и трансиверов: SFP-информация, DDM, статистика фреймов

### Информация о трансиверах

Для каждого порта можно вывести информацию об установленном трансивере:

```text
    show port <имя_порта> sfp
```

В выводе отображаются **все четыре линии** (lane) физического порта, даже если задействованы не все. Для каждой линии показаны:

| Параметр                  | Описание                                                   |
| ------------------------- | ---------------------------------------------------------- |
| **Тип трансивера**        | Оптика, DAC (медный кабель прямого подключения) и т.д.     |
| **Справочная информация** | Производитель, модель, серийный номер SFP                  |
| **Уровень сигнала (DDM)** | Мощность в децибелах (только для оптических трансиверов)   |

> **Примечание:** для медных DAC-кабелей (гидр) уровень сигнала **не отображается**, так как DDM-мониторинг применяется только к оптике. Если установлена оптическая гидра — значения мощности будут видны для каждой линии.

### Подробная статистика порта

Для каждого порта доступна детальная статистика на уровне фреймов:

```text
    show port <имя_порта> statistics
```

Вывод содержит подробную информацию:

- Количество полученных и отправленных фреймов;
- Фреймы с ошибками;
- Распределение по размерам фреймов;
- Счётчики различных типов ошибок.

Эта статистика полезна при диагностике проблем с физическим подключением — ошибки на уровне фреймов могут указывать на проблемы с кабелями, трансиверами или несовместимость оборудования.

## 22.5. Статистика правил фильтрации: счётчики пакетов/байт по каждому flow

По каждому правилу фильтрации (flow rule) балансировщик ведёт **счётчики пакетов и байт**, прошедших через данное правило:

```text
    show filters <имя_фильтра> flows <имя_правила>
```

В выводе отображается поле **statistics** с количеством пакетов и байт, которые были заматчены данным правилом.

### Применение для диагностики

Статистика правил — мощный инструмент диагностики. Типовые сценарии:

**Сценарий 1: Проверка наличия трафика**

Если оператор сообщает, что трафик определённого VLAN проходит через площадку, можно убедиться в этом по счётчикам соответствующего правила. Если счётчики растут — трафик действительно проходит через балансировщик.

**Сценарий 2: Исключение ТСПУ как причины проблемы**

Для диагностики можно создать **временное правило** с высоким приоритетом, которое матчит проблемный трафик (например, конкретный VLAN) и выполняет action `bypass`:

```text
    1. Создать правило: match VLAN <номер>, action bypass, высокий приоритет
    2. Применить конфигурацию (apply)
    3. Проверить: изменилось ли поведение трафика?
    4. Проверить счётчики правила: трафик проходит?
```

Если после создания bypass-правила проблема исчезла — причина в обработке на фильтрах, и нужно диагностировать дальше. Если проблема осталась, а счётчики показывают, что трафик проходит через правило — ТСПУ не является причиной.

> **Важно:** после завершения диагностики не забудьте **удалить временное правило** и применить конфигурацию.

## 22.6. Состояние группы балансировки

Команда для просмотра состояния группы балансировки:

```text
    show balance-group <имя_группы>
```

Вывод показывает общее состояние группы и статус каждой filter group внутри неё.

### 22.6.1. Статус filter groups: up/bypass

Каждая filter group (пара портов в сторону фильтра) может находиться в одном из двух состояний:

| Состояние    | Описание                                                            |
| ------------ | ------------------------------------------------------------------- |
| **up**       | Пара портов активна, трафик отправляется на фильтр                  |
| **bypass**   | Пара портов в режиме программного bypass — трафик перекладывается из LAN в WAN и наоборот, не отправляясь на фильтр |

В нормальном рабочем состоянии **все filter groups** должны находиться в состоянии `up`.

Переход в `bypass` происходит автоматически при потере заданного количества последовательных keep-alive пакетов (по умолчанию — 5). Обратный переход в `up` также автоматический — при получении достаточного количества ответных keep-alive пакетов.

### 22.6.2. Time of pass — время прохождения keep-alive пакета

Внутри каждой filter group отображается параметр **time of pass** — время прохождения keep-alive пакета через фильтр:

```text
    Filter Group fg1:
      Status:        up
      Time of pass:  27000 ns
```

| Параметр           | Описание                                                          |
| ------------------ | ----------------------------------------------------------------- |
| **Time of pass**   | Время (в наносекундах) между отправкой keep-alive пакета в LAN-порт и получением его из парного WAN-порта |
| **Time of receipt**| Внутренний timestamp — привязан к внутреннему счётчику, практической ценности для эксплуатации не имеет |

Механизм измерения:

1. Балансировщик отправляет keep-alive пакет в **LAN-порт** filter group;
2. Пакет проходит через фильтр (прозрачно, минуя DPI);
3. Балансировщик получает пакет из **WAN-порта** той же filter group;
4. Фиксируется разница во времени — это и есть **time of pass**.

В нормальном состоянии time of pass составляет порядка **20–30 микросекунд** (20 000–30 000 наносекунд).

> **Важно:** балансировщик **ничего не знает** о работе DPI на фильтрах. Keep-alive пакеты проходят через фильтр прозрачно, без обработки движком DPI. Параметр time of pass отражает исключительно время прохождения пакета через аппаратную часть фильтра.

Если пакеты начинают теряться — time of pass резко возрастает. После потери **5 последовательных** keep-alive пакетов filter group переводится в состояние `bypass`.

### Влияние загрузки фильтра на keep-alive

При высокой загрузке таблиц сессий фильтра (значительно выше рекомендованных 20%) фильтр может начать медленнее обрабатывать трафик и **дропать пакеты**, в том числе keep-alive. Это может привести к «флапингу» filter group — циклическому переключению между `up` и `bypass`.

В такой ситуации оператор **не почувствует флапов** на физических линках (программный bypass не затрагивает физику), но:

- Небольшое количество пакетов может теряться при каждом переключении;
- Часть трафика временно не фильтруется.

Система мониторинга должна отслеживать загрузку таблиц на фильтрах и сигнализировать о приближении к пороговым значениям **до** того, как начнутся проблемы с keep-alive.

## 22.7. Программный байпас: индивидуально для каждой группы портов

Программный bypass на балансировщике может управляться как **автоматически** (по результатам keep-alive), так и **вручную**:

```text
    call balance-group <имя_группы> software-bypass <режим>
```

| Режим        | Описание                                                            |
| ------------ | ------------------------------------------------------------------- |
| **bypass**   | Принудительно перевести группу в режим программного bypass          |
| **primary**  | Вернуть группу в нормальный режим работы (трафик на фильтры)       |

### Индивидуальный bypass для каждой filter group

Ключевое преимущество программного bypass — его **гранулярность**. Bypass включается **индивидуально для каждой filter group**, а не для всей группы балансировки целиком:

```text
    Filter Group fg1: up        ← трафик идёт на фильтр
    Filter Group fg2: bypass    ← трафик байпасится (проблема с этой парой портов)
    Filter Group fg3: up        ← трафик идёт на фильтр
    Filter Group fg4: up        ← трафик идёт на фильтр
```

Это означает, что при проблеме с одним интерфейсом фильтра **не фильтруется** только часть трафика, проходящая через данную пару портов. Весь остальной трафик продолжает нормально обрабатываться.

### Преимущества перед переключением на байпасе

| Критерий                   | Bypass на оптическом байпасе          | Программный bypass на балансировщике    |
| -------------------------- | ------------------------------------- | --------------------------------------- |
| **Флап линков оператора**  | Да — при каждом переключении          | **Нет** — физические линки не затрагиваются |
| **Гранулярность**          | Вся площадка целиком                  | **Каждая пара портов** индивидуально    |
| **Согласование с оператором** | Требуется (работы, окна обслуживания) | **Не требуется** — оператор ничего не замечает |
| **Последствия**            | Весь трафик не фильтруется            | Не фильтруется **только часть** трафика |

> **Опыт эксплуатации:** такое поведение было опробовано при тестировании эшелонированной системы в Сургуте. Вместо переключения трафика на оптическом байпасе (что вызывает флапы линков и недовольство оператора) использовался программный bypass на балансировщике — одной командой трафик уводился с фильтров без каких-либо видимых последствий для оператора.

### Автоматическое восстановление

При автоматическом bypass (по результатам keep-alive):

- Если filter group потеряла keep-alive — автоматически переводится в `bypass`;
- Когда интерфейс восстанавливается и keep-alive снова проходят — filter group **автоматически возвращается** в рабочее состояние (`up`);
- Перебалансировки трафика **не происходит** (при выключенной перебалансировке) — остальные filter groups продолжают работать без изменений.

### Проверка Bypass Watchdog (пилотный проект, Урал)

Для уральского проекта с байпасами GL Sun доступна дополнительная диагностика связи между балансировщиком и байпасом:

| Состояние     | Описание                                                         |
| ------------- | ---------------------------------------------------------------- |
| **active**    | Группа балансировки активна, heartbeat-пакеты отправляются на байпас, байпас отвечает |
| **disconnected** | Группа балансировки неактивна или связь с байпасом потеряна — heartbeat-пакеты не отправляются |

Связь с байпасом GL Sun осуществляется по **протоколу TCP**. При переходе группы балансировки в неактивное состояние отправка heartbeat прекращается.

> **Примечание:** данная диагностика **не актуальна** для федерального проекта с байпасами Silicom, где heartbeat генерируется и проверяется самим байпасом.

---

[← Оглавление](../README.md) · [← Раздел 21: Балансировщик: конфигурация](21.md) · [Раздел 23: Распознавание протоколов (DPI Engine) →](23.md)