MiniMax M3 vs Claude Opus 4.8: SWE-Bench и цена в 10× (2026)
MiniMax M3 показала 59% на SWE-Bench Pro за десятую часть цены Claude Opus 4.8 — но заголовок «M3 обходит GPT-5.5» молча сравнивает её со старым флагманом Anthropic.
Вердикт за 30 секунд
| Вопрос | Ответ |
|---|---|
| Кто выше на SWE-Bench Pro? | Claude Opus 4.8 (69,2% против 59,0% у M3) |
| Кто дешевле за токен? | MiniMax M3 (~×10 на вход и выход) |
| У кого окно контекста больше? | Ничья — у обоих 1M токенов |
| Open-weight доступен сегодня? | Фактически ни у одного (веса M3 задержались) |
| Лучше для рутинных кодинг-агентов? | M3 — разрыв в качестве съедается разрывом в цене |
| Лучше для сложных мульти-файловых правок? | Opus 4.8 — те самые ~10 пунктов реальны |
Если ваша нагрузка — массовые агентные прогоны с чувствительной ценой, берите MiniMax M3 через minimax/minimax-m3 на ofox. Если задача — тяжёлый reasoning на мульти-файловых PR, берите anthropic/claude-opus-4.8. Чистый способ это проверить — поменять одну строку и прогнать оба на одном промпте; код в конце статьи.
TL;DR: что выбрать в четырёх типовых сценариях
Одна строка на каждый сценарий, который покрывает примерно 90% реального кодинг-кода:
| Сценарий | Выбор | Почему |
|---|---|---|
| Линт-фиксы, форматтеры, низкорисковые рефакторы | MiniMax M3 | В 10 раз дешевле за прогон; разница в качестве не видна на простых диффах |
| Агентные плагины IDE (Cursor, Windsurf, Cline) | MiniMax M3 по умолчанию, Opus 4.8 на «объясни этот баг» | M3 тянет объём tool-loop, Opus подключается только на тех промптах, где нужен reasoning |
| Мульти-файловый рефактор, где ошибочный патч стоит часа отладки | Claude Opus 4.8 | Разрыв в 10 пунктов SWE-Bench = заметно меньше сломанных диффов на сложных репозиториях |
| Whole-repo grep+patch на 1M контекста | Тестируйте оба | MSA быстрее на длинном контексте, Opus точнее. A/B на вашем реальном репозитории |
Главная ловушка — пытаться решить это одним выбором. Большинству команд нужны обе модели, маршрутизируемые по типу задачи, — и именно под это сделана возможность ofox менять модель одной строкой при том же base_url. Паттерн маршрутизации — в разделе A/B через ofox.
Краткое сравнение характеристик
Цены сверены с каталогом ofox на 2026-06-13. Контекст и лимиты выхода — из документации вендоров.
| Параметр | MiniMax M3 | Claude Opus 4.8 |
|---|---|---|
| Model ID на ofox | minimax/minimax-m3 | anthropic/claude-opus-4.8 |
| Цена входа | $0,60/M токенов | $5,00/M токенов |
| Цена выхода | $2,40/M токенов | $25,00/M токенов |
| Цена кэш-входа | $0,12/M токенов | $0,50/M токенов |
| Окно контекста | 1M токенов | 1M токенов |
| Максимальный выход | 131K токенов | 128K токенов (по обзору Simon Willison, 2026-05-28) |
| Модальности (вход) | Текст + изображения + видео | Текст + изображения |
| SWE-Bench Pro у вендора | 59,0% | 69,2% |
| Релиз | 2026-06-01 | 2026-05-28 |
| Open weight? | Обещан, веса задержались | Нет (закрытая) |
| Архитектура | MiniMax Sparse Attention (MSA) | Плотный transformer (Anthropic) |
Две строки заслуживают паузы:
Разница в цене входа — 8,3×, в цене выхода — 10,4×. Типичный кодинг-агент выдаёт 0,2–0,5 токена выхода на токен входа, так что эффективный мультипликатор оседает между 9× и 10× в зависимости от нагрузки. Для прикидок на салфетке округляйте до ×10.
Лимит выхода — фактически ничья. M3 отдаёт 131K, Opus 4.8 — 128K. Разрыв в 3K не меняет операционную картину: оба могут за один вызов выдать небольшой файл или дюжину юнит-тестов, и оба упрутся в цепочку вызовов где-то после 130K. Если вы выбираете по запасу по выходу — это ничья, выбирайте по цене или качеству.
SWE-Bench Pro: цифра, с которой всё началось
SWE-Bench Pro — самая жёсткая ветка семейства SWE-bench: задачи из активно поддерживаемых репозиториев, мульти-файловые диффы, без утечки ground-truth. Это самое близкое, что есть в индустрии к «честному» кодинг-бенчмарку, устойчивому к запоминанию.
Расклад фронтира в начале июня 2026 выглядел так:
| Модель | SWE-Bench Pro | Релиз | Примечание |
|---|---|---|---|
| Claude Opus 4.8 | 69,2% | 2026-05-28 | Прогон Anthropic, официально |
| Claude Opus 4.7 | 64,3% | 2026-04 | С чем сравнивали M3 |
| MiniMax M3 | 59,0% | 2026-06-01 | Прогон на своей инфраструктуре с Claude Code в обвязке |
| GPT-5.5 | 58,6% | 2026-04-23 | Прогон OpenAI |
| Gemini 3.1 Pro | < 58,6% | 2026 | Ниже GPT-5.5 по публичным лидербордам |
Первое предложение анонса MiniMax от 1 июня в переводе звучит примерно так: «M3 обходит GPT-5.5 и Gemini 3.1 Pro на SWE-Bench Pro при цене в десять раз ниже». По напечатанному всё верно. Что осталось за кадром: Anthropic выпустила Opus 4.8 на четыре дня раньше с результатом 69,2%, а презентация MiniMax сравнивала M3 со старой Opus 4.7 на 64,3%.
Второй сноской идёт статус независимой верификации. MiniMax прогоняли eval на собственной инфраструктуре с Claude Code в качестве агентной обвязки, методология заявлена соответствующей официальной. На момент написания статьи M3 в официальном лидерборде SWE-Bench Pro не появилась. Считайте 59,0% направлением, а не приговором — на чистом third-party прогоне может выйти 56% или 61%, и в любом случае форма остаётся той же: M3 в одной лиге с GPT-5.5, на ступень ниже Opus 4.8.
Честная одна строка: число у M3 настоящее, маркетинговая рамка — выборочная.
Terminal-Bench 2.1 и мультимодальность: где M3 догоняет
SWE-Bench Pro — только один сигнал. На Terminal-Bench 2.1 — это long-horizon исполнение в терминале, то самое «настрой окружение разработчика и прогоняй упавший тест» — MiniMax заявляет 66,0% у M3. Это сопоставимо с Opus 4.8 в схожих диапазонах по релиз-нотам Anthropic и заметно выше GPT-5.5. Причина — скорость decoding MSA на длинном контексте: ретраи длинных tool-use циклов обходятся дешевле, и в рамках бюджета агент успевает восстановиться после большего числа сбоев.
Нативная мультимодальность — второй аргумент. M3 принимает на вход изображения и видео. Opus 4.8 — только изображения. На практике для кодинга это значимо в двух кейсах: вставить скриншот стек-трейса и подсунуть короткий скринкаст с багом UI. Скриншоты тянут оба, скринкаст — только M3.
Для 95% кодинг-задач ни одно из этих свойств не перевешивает — вы смотрите в текст. Они становятся решающими только когда вы начинаете строить агентов, которые реально смотрят в браузер.
Математика цены: что на самом деле стоит 1M токенов
Бенчмарки прогоняются на идеальной инфраструктуре. Счёт же приходит за продакшн-трафик. Вот три реалистичных профиля:
| Профиль нагрузки | Токены | Стоимость на M3 | Стоимость на Opus 4.8 | Мультипликатор |
|---|---|---|---|---|
| Рутинный рефактор-агент (1M вход + 200K выход) | 1,2M всего | $1,08 | $10,00 | 9,3× |
| Тяжёлая генерация кода (500K вход + 500K выход) | 1M всего | $1,50 | $15,00 | 10,0× |
| Whole-repo grep + patch (1M вход + 50K выход) | 1,05M всего | $0,72 | $6,25 | 8,7× |
| Long-context аудит с попаданием в кэш (1M из кэша + 50K выход) | 1,05M всего | $0,24 | $1,75 | 7,3× |
Расчёт по опубликованным ставкам ofox, сверенным 2026-06-13: M3 $0,60/M вход / $2,40/M выход / $0,12/M кэш; Opus 4.8 $5/M вход / $25/M выход / $0,50/M кэш. Считается просто: цена × количество токенов, без округлений.
Картина меняется ещё сильнее на масштабе команды. Возьмём типичный профиль: пять разработчиков, по 100 прогонов кодинг-агента в день, 500K входа и 100K выхода на прогон, 22 рабочих дня в месяц.
- M3 за прогон: $0,30 + $0,24 = $0,54. В месяц: 5 × 100 × 22 × $0,54 = $5 940.
- Opus 4.8 за прогон: $2,50 + $2,50 = $5,00. В месяц: 5 × 100 × 22 × $5,00 = $55 000.
Инженерная команда из пяти человек, гоняющая Opus по умолчанию, каждый месяц съедает небольшую ипотеку. Та же команда с M3 в качестве дефолта и Opus, вызываемой только на тяжёлых задачах (скажем, 10% прогонов), платит примерно $11K в месяц. Аргумент про цену-производительность у M3 — не «дешёвое тоже сойдёт»; он в том, что сэкономленные $44K можно потратить на Opus больше — там, где это реально нужно.
Оговорка про «open weight»: где же веса?
Анонс MiniMax от 1 июня позиционировал M3 как «первую и единственную open-weight модель», объединяющую фронтирный кодинг, 1M контекста и нативную мультимодальность. Веса и технический отчёт обещали выложить на Hugging Face и GitHub «примерно через 10 дней» — то есть в окно 10–11 июня.
На 13 июня 2026 в репозитории MiniMax-M3 на GitHub всё ещё висит: «this model is not yet released — this repository exists so the community can share what they need next». API живой, M3 можно вызывать через провайдеров, включая ofox, но self-host сегодня недоступен. Заглушка в репозитории провисела уже почти две недели.
Это не приговор — вендоры регулярно сдвигают релизы весов, и «10 дней» были мягким окном, а не контрактом. Но это меняет практику. Если вы выбрали M3 именно потому что через две недели веса упадут в ваш приватный кластер, эта ставка пока не сыграла. На сейчас и MiniMax M3, и Claude Opus 4.8 с точки зрения деплоя — это API-only; ось «open weight» в июне 2026 ничего не решает.
Когда веса всё-таки выйдут, математика поменяется ещё раз. Self-hosted M3 кластер амортизируется на ваш GPU-лизинг, а не на per-token прайс — для постоянных 24/7 нагрузок это принципиально другая кривая стоимости по сравнению с per-token Opus. Но это уже сюжет статьи, которую мы напишем в день, когда веса реально появятся на Hugging Face.
Когда брать MiniMax M3
Берите minimax/minimax-m3, если выполнено любое из:
-
Вы гоняете кодинг-агенты в объёме. Линт-фиксеры, форматтеры, codemod-агенты, пайплайны вида «напиши docstring». В этих сценариях доминирует стоимость токенов, а не качество одного промпта, и преимущество M3 ×10 по цене съедает разрыв в ~10 пунктов качества.
-
Вы платите за длинный контекст на входе. Whole-repo промпты (1M токенов кода на вход, маленький дифф на выход) — там, где скорость decoding MSA и цена входа M3 умножаются друг на друга. Миллион кэшированных токенов на M3 стоит $0,12 против $0,50 на Opus.
-
Видеовход — жёсткое требование. Opus 4.8 принимает картинки, но не видео. Если агенту нужно посмотреть 30-секундную запись бага UI — в этом сравнении вариант ровно один.
-
Вы хеджируете против ценового пояса Opus 4.8. Даже команды, предпочитающие Opus 4.8 для основного потока, маршрутизируют рутину в более дешёвую модель. M3 — самый сильный кодинг-вариант ниже $1/M, который при этом тащит 1M контекст.
-
Вы готовы переключиться, если независимые ре-раны SWE-Bench Pro выдадут цифру ниже. Считайте 59% провизорной. Стройте стек так, чтобы свап
minimax/minimax-m3на следующего дешёвого претендента был сменой одной строки конфига.
Когда брать Claude Opus 4.8
Берите anthropic/claude-opus-4.8, если выполнено любое из:
-
Ошибочный патч стоит дороже счёта за токены. Продакшн-хотфиксы, рефакторы с требованиями безопасности, всё, что вы бы и так ревьюили глазами перед мерджем. Разрыв в ~10 пунктов SWE-Bench Pro концентрируется на самых тяжёлых задачах — не на медианных.
-
Вы строите агентов с упором на reasoning. «Прочитай этот постмортем и предложи три исправления». «Просмотри этот OAuth-флоу и найди баг». Прирост reasoning у Opus 4.8 относительно 4.7 ощутим по релиз-нотам Anthropic и независимым обзорам — например, у Simon Willison.
-
Вы уже в экосистеме Anthropic. Claude Code, MCP-обвязки Anthropic, динамические воркфлоу — всё это рассчитывает на семантику tool-use в стиле Anthropic. M3 с Claude Code работает (сами MiniMax использовали его в обвязке), но на ожидаемом формате tool calls вы периодически будете цеплять края.
-
Вам подходит ценовой пояс «Fast mode». В Opus 4.8 появился отдельный тариф $10/M вход / $50/M выход — Fast mode для задач, чувствительных к латенси. Он дороже обычного, но дешевле, чем вызывать Opus 4.7 и ждать дольше. Сравнение тут не с M3, а внутри линейки Anthropic — Opus 4.8 standard против Fast — разобрано в нашем обзоре релиза Claude Opus 4.8.
-
Ваш eval-стенд откалиброван под Opus. Если у команды есть eval-набор «принял бы это PR старший ревьюер», натренированный на выходах Opus, смена модели обесценивает результаты до повторной калибровки. Это реальный инженерный долг, а не интуиция.
Когда не брать ни одну (и что взять вместо)
Несколько ситуаций, где само сравнение — не тот вопрос:
-
Бюджет до $0,10/M на токен, простые рефакторы. Смотрите на маленькие модели — Claude Haiku 4 или GPT-5.4 Mini, разобранные в гайде по GPT-5.4 Mini в России. Тратить $0,60/M на M3, когда GPT-5.4 Mini за $0,10/M делает тот же линт-фикс, — это театр.
-
Нужен on-prem уже сегодня. И M3 (веса не выложены), и Opus 4.8 (закрытая) — это API-only. Self-host для фронтирного кодинга сейчас — это Qwen 3.7 Max и линейка открытых китайских моделей; см. Qwen 3.7 Max против Claude на кодинг-арене.
-
Вы оптимизируете жёсткий SLA по латенси, а не цену. И M3, и Opus 4.8 сделаны под качество, а не под p50 latency. Меньшие быстрые модели обходят обоих по TTFT.
-
Нужно одновременно оценивать несколько фронтирных моделей. Соберите harness, а не выбирайте одну. Сравнение агентных IDE — Cursor 3 против Claude Code — показывает паттерн стенда.
A/B через ofox: 10 строк кода
Всё сравнение сводится к замене одной строки, если вы вызываете обе модели через OpenAI-совместимый эндпоинт ofox. Один base_url, одинаковый SDK, меняется только аргумент model.
Python — A/B обе модели в одном цикле
from openai import OpenAI
client = OpenAI(api_key=OFOX_API_KEY, base_url="https://api.ofox.ai/v1")
PROMPT = "Refactor this function to remove duplication: ..."
for model in ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]:
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": PROMPT}],
)
print(model, resp.usage.total_tokens, resp.choices[0].message.content[:120])
Запустите — получите потребление токенов на каждую модель и первые 120 символов выхода для визуального сравнения. Подставьте total_tokens в таблицу с математикой цены выше — и у вас стоимость прогона на реальном промпте, а не на вендорном бенчмарке.
Node — та же форма
import OpenAI from "openai";
const client = new OpenAI({ apiKey: process.env.OFOX_API_KEY, baseURL: "https://api.ofox.ai/v1" });
const prompt = "Refactor this function to remove duplication: ...";
for (const model of ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]) {
const r = await client.chat.completions.create({ model, messages: [{ role: "user", content: prompt }] });
console.log(model, r.usage.total_tokens, r.choices[0].message.content.slice(0, 120));
}
Та же форма, тот же эндпоинт, тот же вызов SDK. Стоимость миграции между моделями — одна строка. Только поэтому это сравнение имеет ответ в 10 строках, а не в неделе вендорного онбординга.
Для многошагового агентного цикла с tool calls тот же свап работает — обе модели принимают массивы tools в OpenAI-стиле через ofox. Прогоните формат tool calls на ваших конкретных инструментах, потому что обработка strict-режима у каждого провайдера расходится по краям, но контракт один.
Совместимость: где API двух моделей расходятся
Один эндпоинт, один вызов SDK — но есть пара острых краёв, которые стоит знать до того, как заводить любую из моделей в продакшн.
Обработка system prompt. Claude Opus 4.8 трактует роль system как строгий системный промпт с повышенным доверием. MiniMax M3 (через OpenAI-совместимый путь) растворяет system в разговоре более мягко. Если ваш агент опирается на ограничения, заданные только через system — «не вызывай этот инструмент без запроса», «всегда отвечай JSON» — M3 их соблюдает большую часть времени, но статистически чаще «уплывает» на длинных tool-loop. Обход: повторяйте критические ограничения в первом user-сообщении.
Строгость формата tool calls. Opus 4.8 жёстко проверяет JSON Schema аргументов — откажется вызывать инструмент, если у вас обязательное поле, которое модель не смогла заполнить. M3 толерантнее и может выдать вызов с плейсхолдер-строкой. Если ваш слой инструментов считает плейсхолдеры валидными, вы тихо выполните неверное действие; если валидация строгая — увидите больше ретраев. Фикс в обоих случаях один: валидируйте аргументы инструмента на сервере, а не только на уровне модели.
Семантика кэша. Обе модели поддерживают кэшированный вход, но Anthropic делит счёт на запись и чтение. На Opus 4.8 вы платите разовый cache write $6,25/M (TTL 5 минут) или $10/M (TTL 1 час), затем каждый последующий cache read идёт по $0,50/M — это цифра из таблицы характеристик выше. У M3 на ofox — единый тариф $0,12/M на чтение с неявным TTL и без отдельной наценки на запись. Для нагрузок, которые много раз в минуту попадают в один и тот же long-context промпт (например, code-review агент со статическим repo-промптом), M3 драматически дешевле на слое cache read. Для нагрузок, где кэш греется часами и cache write размазывается по многим чтениям, 1-часовой пояс Opus 4.8 уже конкурентен на токенный уровень, даже до учёта качества.
Форма стрим-чанков. Обе модели стримят OpenAI-совместимые чанки, но Opus 4.8 при включённом extended thinking выдаёт более гранулярные события delta.thinking (разобрано в нашем обзоре релиза Opus 4.8). Если ваш клиент парсит thinking-дельты отдельно от content-дельт, этот код работает против Opus и no-op против M3 — у неё thinking-дельты через OpenAI-совместимый путь пока не отдаются. Это не баг — просто неиспользуемое поле.
Rate limit на уровне провайдера. Когда вы вызываете обе модели через ofox, вы делите один rate-limit-конверт по своему API-ключу — а не две раздельные вендорские квоты. В этом и смысл шлюзовой архитектуры: фолбэк на M3, когда Opus упёрся в лимит, и наоборот — без жонглирования двумя наборами кредов.
Весь вопрос «MiniMax M3 vs Claude Opus 4.8» сворачивается до замены одной строки на одном эндпоинте — это и есть единственный вменяемый способ выбирать кодинг-модель в 2026 году.
Источники, сверенные для этой заметки
- Anthropic — Introducing Claude Opus 4.8 (сверено 2026-06-13)
- Репозиторий MiniMax-M3 на GitHub (статус весов сверен 2026-06-13)
- TestingCatalog в X — Opus 4.8 SWE-Bench Pro 69,2% против 64,3% у 4.7
- The Decoder — MiniMax M3: open-weight model with a million-token context challenges proprietary leaders
- Simon Willison — Claude Opus 4.8: a modest but tangible improvement
- Снимок каталога ofox для
minimax/minimax-m3иanthropic/claude-opus-4.8(цены сверены 2026-06-13)


