Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, цена и когда переключаться

Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, цена и когда переключаться

TL;DR — Anthropic выпустила Claude Fable 5 9 июня 2026 года — это первая публично доступная модель Mythos-класса. Она берёт 95,0% на SWE-bench Verified и 80,3% на SWE-bench Pro — отрыв от Opus 4.8 в 11 пунктов и от GPT-5.5 — в 21,7. Цена — $10/$50 за миллион токенов, ровно 2× Opus 4.8. GPT-5.5 всё ещё держит Terminal-Bench 2.1 (82,7% против 80,5%), Opus 4.8 — лидерство по длинному контексту и цене на балл, а математика апгрейда сводится к тому, во что вы упёрлись: в способности или в счёт. Ниже — реальные цифры, расчёт стоимости балла и дерево решений, которое можно применить сегодня.

Fable 5 — первая публично доступная модель, пробившая 80% на SWE-bench Pro и 95% на Verified, но при $10/$50 за миллион токенов стоимость одного балла SWE-bench Pro оказывается на 72% выше, чем у Opus 4.8.

Что выпустили эти три релиза

Три релиза за семь недель полностью перепрошили вершину код-лидербордов.

GPT-5.5 вышел 23 апреля 2026 года как единый флагман OpenAI — больше нет разделения Standard/Pro по способностям, есть только две поверхности (GPT-5.5 и GPT-5.5 Pro) для разной цены и латентности. Релиз был построен вокруг Codex CLI и computer use, заголовком стал «агентный кодинг». 5 мая GPT-5.5 Instant стал моделью по умолчанию в ChatGPT.

Claude Opus 4.8 вышел 28 мая 2026 года по той же цене $5/$25, что и 4.7. SWE-bench Pro прыгнул с 64,3% до 69,2%, OSWorld-Verified до 83,4%, а независимый лидерборд GDPval-AA от Artificial Analysis вывел его на 121 балл Elo выше GPT-5.5 на реальной экономической работе — при этом тратя на 35% меньше выходных токенов на задачу, чем 4.7. Та же цена, выше балл, ниже счёт. Полный разбор — в нашем обзоре релиза Opus 4.8.

Claude Fable 5 вышел 9 июня 2026 — буквально вчера на момент написания. Это первая общедоступная модель из Mythos-класса, семейства, которое Anthropic раньше не выпускала публично из-за киберспособностей, признанных слишком рискованными для широкого релиза. Fable 5 — это та же Mythos-модель с тремя слоями классификаторов безопасности поверх: когда запрос попадает в шаблоны кибербезопасности, био/химии или попытки дистилляции, он автоматически роутится на Opus 4.8. Цена — $10/$50, вдвое дешевле, чем за Mythos Preview, но всё ещё 2× Opus 4.8.

Главная новость не в том, что Anthropic выпустила две модели за две недели. А в том, что разрыв между лидером возможностей и лидером цена/качество увеличился — и теперь они оба внутри семьи Claude.

SWE-Bench: три модели лицом к лицу

Бенчмарки на код шумят. SWE-bench Verified и SWE-bench Pro — два, которые имеют значение для продакшен-решений, потому что прогоняются end-to-end на реальных задачах GitHub с ground truth от мейнтейнеров. Вот как идут все трое:

БенчмаркFable 5Opus 4.8GPT-5.5
SWE-bench Verified95,0%88,6%
SWE-bench Pro80,3%69,2%58,6%
Terminal-Bench 2.180,5%74,6%82,7%
FrontierCode Diamondлидер (×5 к GPT-5.5, ×2 к Opus)
Every Senior Engineer (из 100)916362
GraphWalks BFS @ 1M токенов68,1%45,4%
OSWorld-Verified83,4%78,7%
GDPval-AA (Elo, реальная работа)18901769

В этой таблице три вещи стоят больше, чем заголовочные цифры.

Senior Engineer от Every — это самое чистое чтение потолка возможностей. Every прогоняет тест на самых сложных задачах кодинга, какие они могут написать: вроде тех, что у синиор-инженера займут рабочий день. Fable 5 с 91 из 100 попадает в диапазон тех самых живых инженеров, которые проходили тест. Opus 4.8 с 63 и GPT-5.5 с 62 фактически на одном уровне и оба сидят в зоне «джуниор с отладчиком». Разрыв в 28 пунктов между Fable 5 и Opus 4.8 на этом тесте — это и есть тот разрыв, который оправдывает премию по цене, если ваша работа живёт на этом потолке.

Terminal-Bench — единственное место, где GPT-5.5 всё ещё впереди, и сноска важна. GPT-5.5 берёт 82,7% против 80,5% у Fable 5 — близко, но реальное лидерство. Сноска: счёт GPT-5.5 получен через Codex CLI — самую отлаженную агентную поверхность OpenAI под терминальную работу. Счёт Fable 5 — это модель в обычном harness’е. На Codex-центричных воркфлоу у GPT-5.5 было два месяца, чтобы вшиться в реальные пайплайны; «переключиться на Fable» — это не бесплатный апгрейд, если у вас Codex уже в центре стека. Разбор компромисса — в гайде по конфигурации Codex CLI.

Длинный контекст — это лидерство семьи Claude, и оно сложилось. На GraphWalks BFS при 1M токенов Opus 4.8 даёт 68,1% против 45,4% у GPT-5.5 — разрыв 22,7 пункта, который на практике означает «агент действительно помнит, что было на ходу 12». Anthropic пока не опубликовала прямого балла Fable 5 на GraphWalks, но архитектура длинного контекста у двух моделей общая, так что разрыв с GPT-5.5 на retrieval по миллионам токенов почти наверняка сохраняется.

Цена и что на самом деле покупает «стоимость одного балла бенчмарка»

Прайс прозрачный. Интересна цифра, сколько модель отдаёт на каждый потраченный доллар.

МодельВход ($/M)Выход ($/M)Смешанная (2:1)*За балл SWE-bench Pro
Claude Fable 5$10,00$50,00$23,33~$0,62
Claude Opus 4.8$5,00$25,00$11,67~$0,36
GPT-5.5$5,00$30,00$13,33~$0,50

Смешанная цена рассчитана при типичном для кодинга соотношении вход/выход 2:1 (контекста на вход больше, чем кода на выход). Роутинг через ofox.ai сохраняет те же ставки, без наценки.

Стоимость одного балла SWE-bench Pro — метрика, которую большинству команд стоит реально отслеживать, потому что именно так выглядит месячный счёт, когда вы масштабируете трафик агентного кодинга. У Fable 5 — $0,62, это на 72% дороже за балл, чем $0,36 у Opus 4.8. GPT-5.5 посередине на $0,50 — проигрывает обоим Claude по абсолютным способностям, но дешевле за балл, чем Fable 5.

Две поправки сдвигают математику в пользу Fable 5, прежде чем списывать его как роскошь:

Fable 5 завершает ту же задачу за меньшее число ходов. Цифры Anthropic, подтверждённые независимыми прогонами, показывают, что Fable 5 тратит примерно на 25–30% меньше ходов, чем Opus 4.8, на агентных задачах по таблицам и кодовым базам. Если ваше узкое место — объём выходных токенов (обычная история на длинных автономных прогонах), эта эффективность частично гасит 2× ставку прайса. Opus 4.8 уже даёт на 35% меньше выходных токенов, чем 4.7; Fable 5 двинул эту планку дальше.

Потолок возможностей реален на самых трудных 10–20%. Если в вашей команде сегодня цепочка эскалации выглядит как «после трёх неудачных попыток Opus 4.8 передаём задачу живому инженеру», переадресация этих случаев на Fable 5 может закрыть задачу без человека в цикле. Тогда сравнение перестаёт быть «какая модель дешевле за токен» и становится «какая модель убирает синиор-инженера из цикла». В этой постановке премия Fable 5 обычно отбивается.

Прогоните математику роутинга на собственной нагрузке. Через ofox.ai один ключ открывает доступ к Opus 4.8 и GPT-5.5 уже сегодня (Fable 5 подключается), всё на одном OpenAI-совместимом эндпоинте. Пропустите одни и те же промпты через все три модели, сравните расход токенов и качество на вашей нагрузке прежде, чем принимать решение об апгрейде.

Когда переключаться: дерево решений

Правильный вопрос не «какая модель победит» — Fable 5 выигрывает большинство бенчмарков. Правильный вопрос: «какая модель победит на моей задаче и моём счёте». Вот логика роутинга, которая переводит опубликованные цифры в защищаемый выбор.

1. Основная нагрузка — длинный агентный кодинг (часовые прогоны, миграции через всю кодовую базу). Берите Fable 5. Senior Engineer-бенчмарк, лидерство на FrontierCode Diamond и сокращение на 25–30% числа ходов — всё это накапливается на длинных прогонах. Премию покрывают меньше пустых ходов и меньше передач задачи живому человеку. Похожие схемы роутинга разбираются в сравнении Cursor 3 vs Claude Code.

2. Основная нагрузка — терминальные CLI-задачи, ops-автоматизация, или вы уже на Codex CLI. Берите GPT-5.5. Terminal-Bench 2.1 — единственный бенчмарк, где GPT-5.5 впереди, и отрыв на Codex-центричных воркфлоу реальный, а не шум бенчмарка. 7 недель форы по интеграции тут считаются.

3. Основная нагрузка — всё остальное: рефакторинги, code review, ежедневные агентные циклы в масштабе. Берите Opus 4.8. Тот же прайс $5/$25, что у 4.7, лидерство в реальной работе на GDPval-AA, на 35% меньше выходных токенов, чем у прошлого поколения. Для 80% команд в 2026 это правильный ответ — и он останется правильным, пока ваша нагрузка не упрётся в потолок возможностей.

4. Нужен retrieval на миллионе токенов (юридический ревью, аудит кодовой базы, длинные транскрипты). Берите Opus 4.8 (или Fable 5, если бюджет позволяет). 45,4% у GPT-5.5 на GraphWalks BFS при 1M токенов — это дисквалифицирующая цифра: модель уже неустойчиво находит факты после ~200K токенов. Только архитектура семьи Claude сегодня выдерживает этот масштаб.

5. Вы натыкаетесь на отказы или роутинг обратно на Opus 4.8 при работе с Fable 5. Это ожидаемое поведение, не баг. Три классификатора безопасности Fable 5 (кибербез, био/химия, попытки дистилляции) срабатывают, по данным Anthropic, примерно в 5% сессий, и фолбэк молчаливый — запрос всё равно отрабатывает Opus 4.8. Если ваша нагрузка живёт в одной из этих трёх зон (security research, биотех, пайплайны обучения моделей), не пытайтесь обходить классификатор. Просто зовите Opus 4.8 напрямую и пропускайте лишний хоп.

Единственная схема роутинга, которая не пережила новые цифры: «Opus как ежедневная рабочая лошадка, GPT-5.5 — для математики и длинного контекста». До мая это было верно. GraphWalks закрыл разрыв по длинному контексту. Opus 4.8 закрыл и разрыв по математике (USAMO 2026 прыгнул с 69,3% на Opus 4.7 до 96,7% на 4.8). Если вы сегодня отправляете математику и длинный контекст на GPT-5.5, вы платите больше за выходной токен ради худшего результата.

Как подключиться через ofox.ai

Все три модели приземляются на одном OpenAI-совместимом эндпоинте, так что путь от «использую одну модель» до «тестирую все три» — это одно изменение base URL.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-key",
)

# Claude Opus 4.8 — ежедневная рабочая лошадка
opus = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",
    messages=[{"role": "user", "content": "Проверь этот сервис на гонки..."}],
)

# GPT-5.5 — терминалоцентричные сценарии
gpt = client.chat.completions.create(
    model="openai/gpt-5.5",
    messages=[{"role": "user", "content": "Напиши shell-скрипт, который..."}],
)

Opus 4.8 и GPT-5.5 уже живы на ofox.ai сегодня под ID anthropic/claude-opus-4.8 и openai/gpt-5.5. Fable 5 подключается в агрегатор сейчас — ID появится в каталоге моделей или changelog. Один ключ закрывает все три, а агрегатор делает вопрос «способности vs цена» проверяемым эмпирически: те же промпты, три модели, один эндпоинт, реальные цифры на вашем трафике.

Для нативного протокола Anthropic (adaptive thinking, контроль effort у Opus 4.8) направьте официальный SDK Anthropic на https://api.ofox.ai/anthropic. Обе схемы интеграции — в сравнении Qwen 3.7 Max и Claude на кодинге, там разобраны компромиссы.

Итог

Fable 5 — это новый потолок возможностей. Opus 4.8 — новый пол цена/качество. GPT-5.5 — это ставка на экосистему, которая всё ещё выигрывает один важный бенчмарк.

Если вы катите агентный кодинг в продакшен в 2026 году, миграционный путь больше не «выбери одну и забудь». Роутьте Opus 4.8 по умолчанию, эскалируйте самые трудные 10–20% на Fable 5, держите GPT-5.5 на Codex CLI-воркфлоу, где у него лидерство по интеграции. Стоимость одного балла оправдывает сложность роутинга уже на первых нескольких тысячах запросов.

Что не изменилось: независимым лидербордам по-прежнему доверяют больше, чем заявкам вендора. Следите за GDPval-AA от Artificial Analysis на Elo Fable 5 на реальной работе, когда тот появится. Эта цифра скажет, держится ли 2× ценник под нагрузкой за пределами бенчмарка против 25–30% сокращения числа ходов.


Связанное чтение: Обзор релиза Claude Opus 4.8 — Claude как ежедневная рабочая лошадка в деталях. Конфигурация Codex CLI — глубокая настройка под Codex-воркфлоу. Cursor 3 vs Claude Code — сравнение AI-агентов. Qwen 3.7 Max vs Claude на кодинге — реальные цифры на кодовой арене.