Anthropic API сегодня снова лежал. Это уже даже не новость.
У меня Claude используется в куче рабочих процессов. Claude Code, API для агентов, автоматизации. И когда API возвращает 5xx в середине рабочего дня, это не «ой, chatbot не работает». Это часть production pipeline стоит.
По данным StatusGator, у Anthropic 326+ инцидентов с января 2025. Это примерно один инцидент каждые полтора дня.
Я прекрасно понимаю сложность того, что они делают. GPU, inference, масштабирование, unprecedented demand. Всё такое.
Но. К чему это я?
Error budget из Google SRE
В Google когда-то придумали элегантную штуку — error budget.
Идея простая:
- Определяешь SLO, скажем 99.9% availability
- Считаешь бюджет ошибок: 100% − 99.9% = 0.1%, это примерно 43 минуты даунтайма в месяц
- Пока бюджет есть — катишь фичи, выпускаешь новые модели, экспериментируешь
- Бюджет исчерпан — стоп. Все ресурсы на стабильность. Никаких новых релизов, пока не починим
Красота этой штуки в том, что она создаёт механизм, который заставляет замедляться, когда стабильность страдает. Как на машине — начало болтать из стороны в сторону — убавь газ немного.
А теперь посмотрите на Anthropic
Opus 4.1, Sonnet 4.5, Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6 — всё за 2025 год. Новая модель каждые пару месяцев. А 70% инцидентов, по данным Google SRE, возникают из-за изменений.
Если бы у Anthropic был error budget в формате Google, новые модели перестали бы выходить ещё в прошлом году. Весь бюджет давно в минусе.
Вишенка на торте: Anthropic позиционирует себя как «safety-first, stable, deliberate». Но если система недоступна, какая разница, насколько она безопасна?
Скучные вещи, которые делают инфраструктуру инфраструктурой
В AWS каждый критический сервис проходил operational readiness review раз в год минимум. Failure mode analysis, game days, runbook reviews. Скучные, неблагодарные вещи. Но именно они делают инфраструктуру инфраструктурой, а не просто сервисом, который иногда работает.
AI API становятся инфраструктурой. На них строят продукты, бизнесы, автоматизации. Инфраструктурным компаниям 326 инцидентов за 14 месяцев — непозволительная роскошь.
Может, вместо следующей модели стоит следующий квартал потратить на то, чтобы предыдущие работали стабильно? 🙂
Хотя всегда есть шанс, что такой уровень доступности станет нормой, и мы будем снова учиться работать с API, который может в целом не работать минутами и часами.
Помните, я писал про Google Cloud Outage, когда один NPE в конфиге уложил все API Google Cloud? Список улучшений, который Google написал в том инциденте, больше похож на чеклист для запуска распределённого сервиса. Так вот, AI-провайдеры сейчас делают те же ошибки, только быстрее.
В общем, всем static stability :)