Claude Fable 5 действительно сильнее Opus 4.8 в коде?

По опубликованным цифрам — да, и с заметным отрывом. Fable 5 набирает 95,0% на SWE-bench Verified и 80,3% на SWE-bench Pro против 88,6% и 69,2% у Opus 4.8. На Senior Engineer от Every — самом сложном их внутреннем код-бенчмарке — Fable 5 даёт 91 из 100 против 63 у Opus 4.8 и 62 у GPT-5.5. Цена расплаты: Fable 5 стоит $10/$50 за миллион токенов — ровно вдвое дороже Opus 4.8.

Почему GPT-5.5 всё ещё выигрывает Terminal-Bench?

GPT-5.5 берёт 82,7% на Terminal-Bench 2.1 против 80,5% у Fable 5 и 74,6% у Opus 4.8. OpenAI прогоняет бенчмарк через Codex CLI — свой самый отлаженный агентный фронт, заточенный под многошаговую работу в терминале. Если ваша нагрузка — это shell-скриптинг, цепочки CLI, оперативные runbook'и, GPT-5.5 поверх Codex остаётся надёжным выбором, хотя ему уже два месяца.

Сколько стоит Claude Fable 5 по сравнению с Opus 4.8 и GPT-5.5?

Fable 5 — $10 за миллион входных и $50 за миллион выходных токенов. Opus 4.8 — $5/$25. GPT-5.5 — $5/$30 (стандартный прайс OpenAI). По стоимости одного балла SWE-bench Pro Fable 5 выходит примерно в $0,62 против $0,36 у Opus 4.8 — премия 72% за +16% способностей. Математика смягчается, если учесть эффективность по токенам: Fable 5 обычно завершает ту же задачу за 25–30% меньше ходов.

Стоит ли переходить с Opus 4.8 на Fable 5?

Только если упираетесь в потолок возможностей, а не в бюджет. Fable 5 выигрывает уверенно на senior-уровневых задачах кодинга, длинных автономных прогонах и работе с тяжёлым визуальным контентом. Для рутинного кодинга, рефакторинга и большинства агентных циклов Opus 4.8 по-прежнему держит лучшую кривую цена/качество и уже сам по себе оторвался от GPT-5.5 на SWE-bench Verified. Прагматичная схема: 80–90% трафика на Opus 4.8, самые трудные 10–20% — на Fable 5.

Как получить доступ ко всем трём моделям через один API?

Через ofox.ai все три модели идут на OpenAI-совместимом эндпоинте api.ofox.ai/v1 с ID anthropic/claude-opus-4.8 и openai/gpt-5.5 (Fable 5 подключается, ID появится в каталоге моделей). Один ключ покрывает всё, без отдельных аккаунтов и биллингов Anthropic и OpenAI, и можно сравнить качество и расход токенов на своей реальной нагрузке, прежде чем решать про апгрейд. Также удобно для оплаты из России.

Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, цена и когда переключаться

TL;DR — Anthropic выпустила Claude Fable 5 9 июня 2026 года — это первая публично доступная модель Mythos-класса. Она берёт 95,0% на SWE-bench Verified и 80,3% на SWE-bench Pro — отрыв от Opus 4.8 в 11 пунктов и от GPT-5.5 — в 21,7. Цена — $10/$50 за миллион токенов, ровно 2× Opus 4.8. GPT-5.5 всё ещё держит Terminal-Bench 2.1 (82,7% против 80,5%), Opus 4.8 — лидерство по длинному контексту и цене на балл, а математика апгрейда сводится к тому, во что вы упёрлись: в способности или в счёт. Ниже — реальные цифры, расчёт стоимости балла и дерево решений, которое можно применить сегодня.

Fable 5 — первая публично доступная модель, пробившая 80% на SWE-bench Pro и 95% на Verified, но при $10/$50 за миллион токенов стоимость одного балла SWE-bench Pro оказывается на 72% выше, чем у Opus 4.8.

Что выпустили эти три релиза

Три релиза за семь недель полностью перепрошили вершину код-лидербордов.

GPT-5.5 вышел 23 апреля 2026 года как единый флагман OpenAI — больше нет разделения Standard/Pro по способностям, есть только две поверхности (GPT-5.5 и GPT-5.5 Pro) для разной цены и латентности. Релиз был построен вокруг Codex CLI и computer use, заголовком стал «агентный кодинг». 5 мая GPT-5.5 Instant стал моделью по умолчанию в ChatGPT.

Claude Opus 4.8 вышел 28 мая 2026 года по той же цене $5/$25, что и 4.7. SWE-bench Pro прыгнул с 64,3% до 69,2%, OSWorld-Verified до 83,4%, а независимый лидерборд GDPval-AA от Artificial Analysis вывел его на 121 балл Elo выше GPT-5.5 на реальной экономической работе — при этом тратя на 35% меньше выходных токенов на задачу, чем 4.7. Та же цена, выше балл, ниже счёт. Полный разбор — в нашем обзоре релиза Opus 4.8.

Claude Fable 5 вышел 9 июня 2026 — буквально вчера на момент написания. Это первая общедоступная модель из Mythos-класса, семейства, которое Anthropic раньше не выпускала публично из-за киберспособностей, признанных слишком рискованными для широкого релиза. Fable 5 — это та же Mythos-модель с тремя слоями классификаторов безопасности поверх: когда запрос попадает в шаблоны кибербезопасности, био/химии или попытки дистилляции, он автоматически роутится на Opus 4.8. Цена — $10/$50, вдвое дешевле, чем за Mythos Preview, но всё ещё 2× Opus 4.8.

Главная новость не в том, что Anthropic выпустила две модели за две недели. А в том, что разрыв между лидером возможностей и лидером цена/качество увеличился — и теперь они оба внутри семьи Claude.

SWE-Bench: три модели лицом к лицу

Бенчмарки на код шумят. SWE-bench Verified и SWE-bench Pro — два, которые имеют значение для продакшен-решений, потому что прогоняются end-to-end на реальных задачах GitHub с ground truth от мейнтейнеров. Вот как идут все трое:

Бенчмарк	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified	95,0%	88,6%	—
SWE-bench Pro	80,3%	69,2%	58,6%
Terminal-Bench 2.1	80,5%	74,6%	82,7%
FrontierCode Diamond	лидер (×5 к GPT-5.5, ×2 к Opus)	—	—
Every Senior Engineer (из 100)	91	63	62
GraphWalks BFS @ 1M токенов	—	68,1%	45,4%
OSWorld-Verified	—	83,4%	78,7%
GDPval-AA (Elo, реальная работа)	—	1890	1769

В этой таблице три вещи стоят больше, чем заголовочные цифры.

Senior Engineer от Every — это самое чистое чтение потолка возможностей. Every прогоняет тест на самых сложных задачах кодинга, какие они могут написать: вроде тех, что у синиор-инженера займут рабочий день. Fable 5 с 91 из 100 попадает в диапазон тех самых живых инженеров, которые проходили тест. Opus 4.8 с 63 и GPT-5.5 с 62 фактически на одном уровне и оба сидят в зоне «джуниор с отладчиком». Разрыв в 28 пунктов между Fable 5 и Opus 4.8 на этом тесте — это и есть тот разрыв, который оправдывает премию по цене, если ваша работа живёт на этом потолке.

Terminal-Bench — единственное место, где GPT-5.5 всё ещё впереди, и сноска важна. GPT-5.5 берёт 82,7% против 80,5% у Fable 5 — близко, но реальное лидерство. Сноска: счёт GPT-5.5 получен через Codex CLI — самую отлаженную агентную поверхность OpenAI под терминальную работу. Счёт Fable 5 — это модель в обычном harness’е. На Codex-центричных воркфлоу у GPT-5.5 было два месяца, чтобы вшиться в реальные пайплайны; «переключиться на Fable» — это не бесплатный апгрейд, если у вас Codex уже в центре стека. Разбор компромисса — в гайде по конфигурации Codex CLI.

Длинный контекст — это лидерство семьи Claude, и оно сложилось. На GraphWalks BFS при 1M токенов Opus 4.8 даёт 68,1% против 45,4% у GPT-5.5 — разрыв 22,7 пункта, который на практике означает «агент действительно помнит, что было на ходу 12». Anthropic пока не опубликовала прямого балла Fable 5 на GraphWalks, но архитектура длинного контекста у двух моделей общая, так что разрыв с GPT-5.5 на retrieval по миллионам токенов почти наверняка сохраняется.

Цена и что на самом деле покупает «стоимость одного балла бенчмарка»

Прайс прозрачный. Интересна цифра, сколько модель отдаёт на каждый потраченный доллар.

Модель	Вход ($/M)	Выход ($/M)	Смешанная (2:1)*	За балл SWE-bench Pro
Claude Fable 5	$10,00	$50,00	$23,33	~$0,62
Claude Opus 4.8	$5,00	$25,00	$11,67	~$0,36
GPT-5.5	$5,00	$30,00	$13,33	~$0,50

Смешанная цена рассчитана при типичном для кодинга соотношении вход/выход 2:1 (контекста на вход больше, чем кода на выход). Роутинг через ofox.ai сохраняет те же ставки, без наценки.

Стоимость одного балла SWE-bench Pro — метрика, которую большинству команд стоит реально отслеживать, потому что именно так выглядит месячный счёт, когда вы масштабируете трафик агентного кодинга. У Fable 5 — $0,62, это на 72% дороже за балл, чем $0,36 у Opus 4.8. GPT-5.5 посередине на $0,50 — проигрывает обоим Claude по абсолютным способностям, но дешевле за балл, чем Fable 5.

Две поправки сдвигают математику в пользу Fable 5, прежде чем списывать его как роскошь:

Fable 5 завершает ту же задачу за меньшее число ходов. Цифры Anthropic, подтверждённые независимыми прогонами, показывают, что Fable 5 тратит примерно на 25–30% меньше ходов, чем Opus 4.8, на агентных задачах по таблицам и кодовым базам. Если ваше узкое место — объём выходных токенов (обычная история на длинных автономных прогонах), эта эффективность частично гасит 2× ставку прайса. Opus 4.8 уже даёт на 35% меньше выходных токенов, чем 4.7; Fable 5 двинул эту планку дальше.

Потолок возможностей реален на самых трудных 10–20%. Если в вашей команде сегодня цепочка эскалации выглядит как «после трёх неудачных попыток Opus 4.8 передаём задачу живому инженеру», переадресация этих случаев на Fable 5 может закрыть задачу без человека в цикле. Тогда сравнение перестаёт быть «какая модель дешевле за токен» и становится «какая модель убирает синиор-инженера из цикла». В этой постановке премия Fable 5 обычно отбивается.

Прогоните математику роутинга на собственной нагрузке. Через ofox.ai один ключ открывает доступ к Opus 4.8 и GPT-5.5 уже сегодня (Fable 5 подключается), всё на одном OpenAI-совместимом эндпоинте. Пропустите одни и те же промпты через все три модели, сравните расход токенов и качество на вашей нагрузке прежде, чем принимать решение об апгрейде.

Когда переключаться: дерево решений

Правильный вопрос не «какая модель победит» — Fable 5 выигрывает большинство бенчмарков. Правильный вопрос: «какая модель победит на моей задаче и моём счёте». Вот логика роутинга, которая переводит опубликованные цифры в защищаемый выбор.

1. Основная нагрузка — длинный агентный кодинг (часовые прогоны, миграции через всю кодовую базу). Берите Fable 5. Senior Engineer-бенчмарк, лидерство на FrontierCode Diamond и сокращение на 25–30% числа ходов — всё это накапливается на длинных прогонах. Премию покрывают меньше пустых ходов и меньше передач задачи живому человеку. Похожие схемы роутинга разбираются в сравнении Cursor 3 vs Claude Code.

2. Основная нагрузка — терминальные CLI-задачи, ops-автоматизация, или вы уже на Codex CLI. Берите GPT-5.5. Terminal-Bench 2.1 — единственный бенчмарк, где GPT-5.5 впереди, и отрыв на Codex-центричных воркфлоу реальный, а не шум бенчмарка. 7 недель форы по интеграции тут считаются.

3. Основная нагрузка — всё остальное: рефакторинги, code review, ежедневные агентные циклы в масштабе. Берите Opus 4.8. Тот же прайс $5/$25, что у 4.7, лидерство в реальной работе на GDPval-AA, на 35% меньше выходных токенов, чем у прошлого поколения. Для 80% команд в 2026 это правильный ответ — и он останется правильным, пока ваша нагрузка не упрётся в потолок возможностей.

4. Нужен retrieval на миллионе токенов (юридический ревью, аудит кодовой базы, длинные транскрипты). Берите Opus 4.8 (или Fable 5, если бюджет позволяет). 45,4% у GPT-5.5 на GraphWalks BFS при 1M токенов — это дисквалифицирующая цифра: модель уже неустойчиво находит факты после ~200K токенов. Только архитектура семьи Claude сегодня выдерживает этот масштаб.

5. Вы натыкаетесь на отказы или роутинг обратно на Opus 4.8 при работе с Fable 5. Это ожидаемое поведение, не баг. Три классификатора безопасности Fable 5 (кибербез, био/химия, попытки дистилляции) срабатывают, по данным Anthropic, примерно в 5% сессий, и фолбэк молчаливый — запрос всё равно отрабатывает Opus 4.8. Если ваша нагрузка живёт в одной из этих трёх зон (security research, биотех, пайплайны обучения моделей), не пытайтесь обходить классификатор. Просто зовите Opus 4.8 напрямую и пропускайте лишний хоп.

Единственная схема роутинга, которая не пережила новые цифры: «Opus как ежедневная рабочая лошадка, GPT-5.5 — для математики и длинного контекста». До мая это было верно. GraphWalks закрыл разрыв по длинному контексту. Opus 4.8 закрыл и разрыв по математике (USAMO 2026 прыгнул с 69,3% на Opus 4.7 до 96,7% на 4.8). Если вы сегодня отправляете математику и длинный контекст на GPT-5.5, вы платите больше за выходной токен ради худшего результата.

Как подключиться через ofox.ai

Все три модели приземляются на одном OpenAI-совместимом эндпоинте, так что путь от «использую одну модель» до «тестирую все три» — это одно изменение base URL.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.io/v1",
    api_key="your-ofox-key",
)

# Claude Opus 4.8 — ежедневная рабочая лошадка
opus = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",
    messages=[{"role": "user", "content": "Проверь этот сервис на гонки..."}],
)

# GPT-5.5 — терминалоцентричные сценарии
gpt = client.chat.completions.create(
    model="openai/gpt-5.5",
    messages=[{"role": "user", "content": "Напиши shell-скрипт, который..."}],
)

Opus 4.8 и GPT-5.5 уже живы на ofox.ai сегодня под ID anthropic/claude-opus-4.8 и openai/gpt-5.5. Fable 5 подключается в агрегатор сейчас — ID появится в каталоге моделей или changelog. Один ключ закрывает все три, а агрегатор делает вопрос «способности vs цена» проверяемым эмпирически: те же промпты, три модели, один эндпоинт, реальные цифры на вашем трафике.

Для нативного протокола Anthropic (adaptive thinking, контроль effort у Opus 4.8) направьте официальный SDK Anthropic на https://api.ofox.io/anthropic. Обе схемы интеграции — в сравнении Qwen 3.7 Max и Claude на кодинге, там разобраны компромиссы.

Итог

Fable 5 — это новый потолок возможностей. Opus 4.8 — новый пол цена/качество. GPT-5.5 — это ставка на экосистему, которая всё ещё выигрывает один важный бенчмарк.

Если вы катите агентный кодинг в продакшен в 2026 году, миграционный путь больше не «выбери одну и забудь». Роутьте Opus 4.8 по умолчанию, эскалируйте самые трудные 10–20% на Fable 5, держите GPT-5.5 на Codex CLI-воркфлоу, где у него лидерство по интеграции. Стоимость одного балла оправдывает сложность роутинга уже на первых нескольких тысячах запросов.

Что не изменилось: независимым лидербордам по-прежнему доверяют больше, чем заявкам вендора. Следите за GDPval-AA от Artificial Analysis на Elo Fable 5 на реальной работе, когда тот появится. Эта цифра скажет, держится ли 2× ценник под нагрузкой за пределами бенчмарка против 25–30% сокращения числа ходов.

Связанное чтение: Обзор релиза Claude Opus 4.8 — Claude как ежедневная рабочая лошадка в деталях. Конфигурация Codex CLI — глубокая настройка под Codex-воркфлоу. Cursor 3 vs Claude Code — сравнение AI-агентов. Qwen 3.7 Max vs Claude на кодинге — реальные цифры на кодовой арене.

Что выпустили эти три релиза

SWE-Bench: три модели лицом к лицу

Цена и что на самом деле покупает «стоимость одного балла бенчмарка»

Когда переключаться: дерево решений

Как подключиться через ofox.ai

Итог

Похожие статьи

Claude Fable 5 vs Sonnet 5 (2026): в 5 раз дороже, когда это окупается

Claude Sonnet 5 vs Opus 4.8 (2026): на бумаге на 60% дешевле

Prompt Caching: Anthropic vs OpenAI в 2026 — математика стоимости и 3 фикса промахов