Как один тупой баг обрушил полАмерики, или почему джуны не должны деплоить по пятницам
Привет, Пикабу! Сегодня расскажу вам ЭПИЧНУЮ историю о том, как один маленький тайпинг (опечатка, если по-русски) в коде привел к падению Netflix, Reddit, Instagram и чуть не обрушил весь американский интернет!
Спойлер: из-за этой истории появилось правило "никакого деплоя по пятницам". А началось всё с одного сонного джуна...
Великий Падёж 2017 года
28 февраля 2017 года. Обычный вторник в офисе Amazon Web Services. Джун-разработчик получает задание пофиксить небольшой баг в системе биллинга S3 (это такое облачное хранилище, где лежит половина интернета).
"Подумаешь, всего одна команда, что может пойти не так?" - подумал наивный джун.
ЧТО МОЖЕТ ПОЙТИ НЕ ТАК, КАРЛ?! 😱
А пошло вот что:
Опечатка в одном символе
Случайная перезагрузка всей системы
Падение ВСЕХ серверов восточного побережья США
4 часа паники и истерики
Миллионы долларов убытков
Как одна буква положила пол-Америки
Знаете, что самое смешное? Джун должен был всего лишь немного замедлить систему. А в итоге случайно вырубил:
Netflix (упс!)
Reddit (двойной упс!)
Spotify (тройной упс!)
Instagram (ой-ой!)
И ещё сотни сервисов
Представьте себе: миллионы американцев одновременно остались без сериальчиков, музыки и фоточек еды! Это был настоящий диджитал-апокалипсис!
Хроники падения
11:35 - джун нажимает Enter 11:36 - первые сервера начинают падать 11:37 - админы бегут к кофемашине 11:45 - падает первый крупный клиент 12:00 - падает вообще всё 12:01 - джун понимает, что он натворил 12:02 - джун обновляет LinkedIn
Спойлер: его не уволили! Amazon решил, что один такой урок стоит дороже любых тренингов по безопасности.
Что же случилось?
Вся эта история произошла из-за ОДНОЙ лишней буквы в команде. Джун хотел написать:
Copy
SERVIC.RESTART()
А написал:
Copy
SERVICE.RESTART()
И эта дополнительная 'E' заставила систему перезагрузить не один сервис, а ВСЕ СРАЗУ!
Последствия
Amazon потерял несколько миллионов долларов
Появился мем "не деплоить по пятницам" (хотя была среда)
Акции компании упали на 2%
Джун получил прозвище "Тот Самый"
Систему переписали так, чтобы такое больше не повторилось
P.S.
С тех пор в Amazon ввели тройную проверку всех команд, связанных с рестартом систем. А джун стал легендой - его история теперь часть обязательного курса по безопасности.
P.P.S.
А у вас были случаи, когда одна опечатка приводила к катастрофе? Или может, вы помните этот день? Расскажите в комментах!
P.P.P.S. Да, я знаю, что некоторые детали утрированы. Но основа истории - чистая правда!