В эту пятницу, 20 июля, мы снова столкнулись с проблемами на серверных платформах. Во время сбоя система управления питанием «обнаруживает» несуществующий перегрев и переводит сервер в экономный режим. В этом режиме у процессора остается активным только одно ядро, и его частота снижается до 1,5 ГГц. По сравнению с нормальными 10 ядер по 2,4 ГГц (24 ГГц) можно сказать, что сервер и вовсе не работает.
Аналогичный случай произошел 7 января. После него специалист установил патчи на каждый родительский сервер, в котором установлена подверженная проблеме платформа. В этот раз пострадали другие, более новые платформы. Оказались затронуты виртуальные серверы на тарифах Атлант, Форсаж и на стандартных тарифах KVM с дисками NVMe и SSD.
Хронология событий:
- Примерно в 13:00 МСК — возникновение проблемы, снижение производительности
- 13:25 первый сигнал от систем мониторинга — из-за провала в производительности стали отказывать клиентские сервисы.
- Сразу же после этого приступили к восстановлению — уже знали, в чем проблема и как её решить. Начали работы с Атлантов.
- 13:46 Все системы Атлантов вернулись в строй. Приступили к восстановлению других услуг.
- 14:48 Все затронутые серверы работают в штатном режиме.
Ошибка проявилась на 28-ми родительских серверах. Каждый из них приходилось выключать через консоль, находить в дата-центре и обесточивать физически, а потом запитывать заново и включать. Только после этого запускаются виртуальные машины, что тоже происходит не мгновенно. Поэтому потребовалось столько времени.
Нам очень жаль, что клиентам пришлось столкнуться с недоступностью серверов. Установим патчи, как только подготовим родительские серверы. Все новые серверы поставляются уже с патчем от этой проблемы.