Яндекс

Об инциденте с энергоснабжением дата-центра Яндекса

Яндекс публикует итоги предварительного расследования инцидента, который произошёл в воскресенье, 30 марта и затронул один из дата-центров компании. Это повлияло на работу Yandex Cloud и ряда сервисов Яндекса.

Предыстория

Дата-центр, в котором разворачивались события, подключён к национальным электросетям через ближайшую опорную подстанцию 220 кВ. Питание от подстанции в дата-центр подаётся по двум независимым линиям на 110 кВ. Опорной подстанцией управляет компания-оператор, а за всё, что находится между ней и дата-центром — кабели, собственную подстанцию ДЦ, другое силовое оборудование, — отвечает Яндекс.

Чтобы питать весь дата-центр, достаточно одной линии. Схема с двумя линиями, или лучами, страхует объект от перебоев с электричеством. Если что-то произойдёт на одном луче, ДЦ будет работать на втором. Ещё одно преимущество двух линий — возможность проводить профилактические работы на силовом оборудовании, не отключая весь дата-центр.

Что произошло

Днём 30 марта, в 12:25, на опорной подстанции случилась авария. Инциденты разной степени серьёзности происходили здесь и ранее, но благодаря резервированию они не оказывали существенного влияния на работу дата-центра. События 30 марта — беспрецедентный случай, так как в результате аварии оказались обесточены обе линии, питающие ДЦ. За 15-летнюю историю эксплуатации объекта такое произошло впервые. Более того, насколько известно Яндексу, авария такого масштаба — первая в истории подстанции, а она существует с 1960 года.

На протяжении трёх часов, с 12:25 до 15:30, когда подача питания была восстановлена, единственным источником электроэнергии в дата-центре были дизель-генераторы. Благодаря им удалось сохранить работоспособность критических элементов инфраструктуры ДЦ — в том числе центров управления сетями и сервисов безопасности. Это позволило полностью восстановить работу ДЦ уже к полуночи. Если бы не альтернативные источники питания, восстановительные работы после аварии такого масштаба заняли бы несколько дней.

Кого затронула авария

После выхода ДЦ из строя нагрузка была распределена между остальными дата-центрами Яндекса. Пока система перестраивалась, некоторые пользователи в течение короткого времени могли наблюдать небольшие неполадки в работе ряда сервисов Яндекса, например Музыки и Лавки. Глобального сбоя не случилось, поскольку все сервисы Яндекса функционируют по схеме «минус один ДЦ»: они сохраняют работоспособность, даже если один из дата-центров компании полностью выходит из строя.

В дата-центре также находится ru-central1-b — одна из трёх зон доступности платформы Yandex Cloud. Приложения клиентов Yandex Cloud, развёрнутые только в ru-central1-b, оставались недоступными всё время, пока шли восстановительные работы. Приложения, развёрнутые сразу в нескольких зонах доступности, могли быть недоступными или работать с неполадками, пока нагрузка перераспределялась между другими дата-центрами.

Какие меры предпримет Яндекс

События 30 марта показали, что двойной отказ питания в дата-центре — хоть и крайне редкая, но всё же возможная ситуация. Яндекс произведёт переоценку рисков, связанных с энергоснабжением ДЦ, и примет меры, которые позволят минимизировать последствия подобных отказов.

Риск двойного отказа будет заложен в регламенты проведения «учений». Так называются регулярные мероприятия в дата-центрах, на которых команда эксплуатации отрабатывает действия на случай нештатных ситуаций. В системы управления дата-центром будут внесены доработки, которые позволят ускорить его «холодный старт» — возвращение в строй после отказа питания.  Yandex Cloud рассматривает возможность внедрить в своих модулях дополнительное резервирование, в том числе с использованием дизель-генераторов в качестве запасного источника питания. Кроме того, Yandex Cloud продолжит пополнять библиотеку архитектурных решений и развивать инструменты мультизональной отказоустойчивости. Один из таких инструментов — Zonal Shift. Он позволяет точечно управлять нагрузкой в сервисах с мультизональной архитектурой и уже доказал свою эффективность в условиях полного отказа дата-центра.

Подробный разбор инцидента — в блоге Яндекса на «Хабре».

Контакты:

Пресс-служба компании «Яндекс»
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru

МКПАО «Яндекс»

Основной офис в России: Москва

Основной офис
119021, Москва, ул. Льва Толстого, 16
Коммерческий отдел
Отдел по связям с инвесторами
Отдел по связям с общественностью
Корпоративный секретарь
Отдел устойчивого развития