Провайдерам AI API пора завести error budget

Anthropic API сегодня снова лежал. Это уже даже не новость.

У меня Claude используется в куче рабочих процессов. Claude Code, API для агентов, автоматизации. И когда API возвращает 5xx в середине рабочего дня, это не «ой, chatbot не работает». Это часть production pipeline стоит.

По данным StatusGator, у Anthropic 326+ инцидентов с января 2025. Это примерно один инцидент каждые полтора дня.

Я прекрасно понимаю сложность того, что они делают. GPU, inference, масштабирование, unprecedented demand. Всё такое.

Но. К чему это я?

Error budget из Google SRE

В Google когда-то придумали элегантную штуку — error budget.

Идея простая:

Определяешь SLO, скажем 99.9% availability
Считаешь бюджет ошибок: 100% − 99.9% = 0.1%, это примерно 43 минуты даунтайма в месяц
Пока бюджет есть — катишь фичи, выпускаешь новые модели, экспериментируешь
Бюджет исчерпан — стоп. Все ресурсы на стабильность. Никаких новых релизов, пока не починим

Красота этой штуки в том, что она создаёт механизм, который заставляет замедляться, когда стабильность страдает. Как на машине — начало болтать из стороны в сторону — убавь газ немного.

А теперь посмотрите на Anthropic

Opus 4.1, Sonnet 4.5, Haiku 4.5, Opus 4.5, Opus 4.6, Sonnet 4.6 — всё за 2025 год. Новая модель каждые пару месяцев. А 70% инцидентов, по данным Google SRE, возникают из-за изменений.

Если бы у Anthropic был error budget в формате Google, новые модели перестали бы выходить ещё в прошлом году. Весь бюджет давно в минусе.

Вишенка на торте: Anthropic позиционирует себя как «safety-first, stable, deliberate». Но если система недоступна, какая разница, насколько она безопасна?

Скучные вещи, которые делают инфраструктуру инфраструктурой

В AWS каждый критический сервис проходил operational readiness review раз в год минимум. Failure mode analysis, game days, runbook reviews. Скучные, неблагодарные вещи. Но именно они делают инфраструктуру инфраструктурой, а не просто сервисом, который иногда работает.

AI API становятся инфраструктурой. На них строят продукты, бизнесы, автоматизации. Инфраструктурным компаниям 326 инцидентов за 14 месяцев — непозволительная роскошь.

Может, вместо следующей модели стоит следующий квартал потратить на то, чтобы предыдущие работали стабильно? 🙂

Хотя всегда есть шанс, что такой уровень доступности станет нормой, и мы будем снова учиться работать с API, который может в целом не работать минутами и часами.

Помните, я писал про Google Cloud Outage, когда один NPE в конфиге уложил все API Google Cloud? Список улучшений, который Google написал в том инциденте, больше похож на чеклист для запуска распределённого сервиса. Так вот, AI-провайдеры сейчас делают те же ошибки, только быстрее.

В общем, всем static stability :)