Даунтайм 20 июля из-за проблемы с серверными платформами

Новость 23 Июля 2018 2 мин 538

В эту пятницу, 20 июля, мы снова столкнулись с проблемами на серверных платформах. Во время сбоя система управления питанием «обнаруживает» несуществующий перегрев и переводит сервер в экономный режим. В этом режиме у процессора остается активным только одно ядро, и его частота снижается до 1,5 ГГц. По сравнению с нормальными 10 ядер по 2,4 ГГц (24 ГГц) можно сказать, что сервер и вовсе не работает.

Аналогичный случай произошел 7 января. После него специалист установил патчи на каждый родительский сервер, в котором установлена подверженная проблеме платформа. В этот раз пострадали другие, более новые платформы. Оказались затронуты виртуальные серверы на тарифах Атлант, Форсаж и на стандартных тарифах KVM с дисками NVMe и SSD.

Хронология событий:

Примерно в 13:00 МСК — возникновение проблемы, снижение производительности
13:25 первый сигнал от систем мониторинга — из-за провала в производительности стали отказывать клиентские сервисы.
Сразу же после этого приступили к восстановлению — уже знали, в чем проблема и как её решить. Начали работы с Атлантов.
13:46 Все системы Атлантов вернулись в строй. Приступили к восстановлению других услуг.
14:48 Все затронутые серверы работают в штатном режиме.

Ошибка проявилась на 28-ми родительских серверах. Каждый из них приходилось выключать через консоль, находить в дата-центре и обесточивать физически, а потом запитывать заново и включать. Только после этого запускаются виртуальные машины, что тоже происходит не мгновенно. Поэтому потребовалось столько времени.

Нам очень жаль, что клиентам пришлось столкнуться с недоступностью серверов. Установим патчи, как только подготовим родительские серверы. Все новые серверы поставляются уже с патчем от этой проблемы.

Назад к списку

Другие новости

Новость 14 июля 2026

ИИ впервые провел самостоятельную атаку, root без привилегий в ядре Linux и другие новости ИБ
Новость 13 июля 2026

Локация «Амстердам»: переезжаем в новый дата-центр NorthC Amsterdam 1
Новость 3 июля 2026

Инциденты с охлаждением в дата-центре локации «Амстердам» (Qupra DC2). Постмортем и наши обязательства
Новость 3 июля 2026

Постмортем инцидента с сервером виртуализации FirstVDS Казахстан
Новость 2 июля 2026

Что нового в ИБ: ядро Linux снова под ударом, в FFmpeg, Docker, PHP и Squid нашли незакрытые дыры