failover show info на vipnet coordinator hw1000
failover show info на vipnet coordinator hw1000
Категория: Железо Теги: ViPNet Опубликовано: 27 февраля 2024

Что делать, если нет связи между ViPNet координаторами в кластере?

Используется два ViPNet Coordinator HW1000 в режиме кластера горячего резервирования. Один из них перестал запускаться и его пришлось отправить в Infotecs на ремонт (после Q4 убрали пункт, который разрешал их вскрывать), и по возвращению на место для него оказался недоступен активный координатор.

Пассивный узел кластера перестал запускаться и его пришлось отправить в Infotecs на ремонт, как только он вернулся с ремонта встала задача вернуть его на место. Passive-IP-шники мы с горем пополам смогли вычислить.

VBE именно этого узла не было. Окей, с активного сняли vbe, на отремонтированном подсунули этот vbe, vpn stop, потом по данной инструкции сменили IP-шники, vpn start, и оп... пингов нет... failover show info говорит не вижу второй узел...

Пинг по IP 172.16.10.1 с 172.16.10.2 говорит, что узел недоступен. Именно они указаны в документации Infotecs и именно их все используют для интерфейса синхронизации кластера.

Останавливать активный узел кластера возможности нет, так как каждую минуту через него проходит невероятное количество важных пакетов.

На пассивном узле витую пару вынули, оставив только интерфейс для синхронизации. Остановили failover, чтобы не перезагружался бесконечно из-за недоступности шлюзов. Один раз получилось так, что он секунд на 5 начал пинговать и опять перестал.

Дальше пошли разбираться, и ушло на это много времени. Пассивный узел не даёт посмотреть журнал iplir. Для этого нужно перевести в режим single. Перевели и начали смотреть iplir view, и вижу пакеты от левого координатора с IP 172.16.10.2 в сторону 172.16.10.1 на нашем... эм... 

Начинаю смотреть, и действительно, этот IP есть в туннелях за другим координатором. Когда собирали кластер этих туннелей не было, поэтому до сбоя проблем не было - координаторы знали друг друга. При ремонте Infotecs накатил чистую прошивку.

После изменений интерфейса для синхронизации основной начинал пинговаться и переставал почти сразу, но почему? а что он делает в первую очередь? Правильно! Синхронизирует справочники, настройки и ARP-таблицы... 

Эти адреса 172.16.10.1 и 172.16.10.2 используют наверное все, так как их предложили в документации infotecs, и мне кажется, раньше в мануале даже объяснение было, что все равно какие они, ведь эта сеть только между двумя интерфейсами координаторов. И я тогда еще думал, что может стоило взять IP, который не может встретиться в реальности? Но так написано в документации, да и у всех использовались такие IP (включая значительно более опытных коллег).

Как только мы изменили IP-адреса этих интерфейсов на уникальные и параметр activeip в блоке sendconfig настроек failover обоих координаторов, они начали пинговаться и работать без проблем.

И когда знаешь причину проблемы, всё это кажется вполне логичным.

Некий список рекомендаций:

  • следует проверить, что Passive-IP и Acitve-IP не встречаются на других координаторах (например, в туннелях);
  • пингуется ли сам интерфейс координатора и второй координатор по интерфейсу для синхронизации (проверить доступность своего IP необходимо для того, чтобы проверить работу сетевых служб);
  • проверить время и дату на координаторах, но это не должно вызывать проблем;
  • проверить, что вы не запутались при настройке failover и не перепутали IP-адреса;
  • проверить доступность и бесперебойность работы узлов сети, которые задали в качестве testip.
Алексей Черемных
980