MiniMax M3 vs Claude Opus 4.8: SWE-Bench и цена в 10× (2026)
(updated )

MiniMax M3 vs Claude Opus 4.8: SWE-Bench и цена в 10× (2026)

MiniMax M3 показала 59% на SWE-Bench Pro за десятую часть цены Claude Opus 4.8 — но заголовок «M3 обходит GPT-5.5» молча сравнивает её со старым флагманом Anthropic.

Вердикт за 30 секунд

ВопросОтвет
Кто выше на SWE-Bench Pro?Claude Opus 4.8 (69,2% против 59,0% у M3)
Кто дешевле за токен?MiniMax M3 (~×10 на вход и выход)
У кого окно контекста больше?Ничья — у обоих 1M токенов
Open-weight доступен сегодня?Фактически ни у одного (веса M3 задержались)
Лучше для рутинных кодинг-агентов?M3 — разрыв в качестве съедается разрывом в цене
Лучше для сложных мульти-файловых правок?Opus 4.8 — те самые ~10 пунктов реальны

Если ваша нагрузка — массовые агентные прогоны с чувствительной ценой, берите MiniMax M3 через minimax/minimax-m3 на ofox. Если задача — тяжёлый reasoning на мульти-файловых PR, берите anthropic/claude-opus-4.8. Чистый способ это проверить — поменять одну строку и прогнать оба на одном промпте; код в конце статьи.

TL;DR: что выбрать в четырёх типовых сценариях

Одна строка на каждый сценарий, который покрывает примерно 90% реального кодинг-кода:

СценарийВыборПочему
Линт-фиксы, форматтеры, низкорисковые рефакторыMiniMax M3В 10 раз дешевле за прогон; разница в качестве не видна на простых диффах
Агентные плагины IDE (Cursor, Windsurf, Cline)MiniMax M3 по умолчанию, Opus 4.8 на «объясни этот баг»M3 тянет объём tool-loop, Opus подключается только на тех промптах, где нужен reasoning
Мульти-файловый рефактор, где ошибочный патч стоит часа отладкиClaude Opus 4.8Разрыв в 10 пунктов SWE-Bench = заметно меньше сломанных диффов на сложных репозиториях
Whole-repo grep+patch на 1M контекстаТестируйте обаMSA быстрее на длинном контексте, Opus точнее. A/B на вашем реальном репозитории

Главная ловушка — пытаться решить это одним выбором. Большинству команд нужны обе модели, маршрутизируемые по типу задачи, — и именно под это сделана возможность ofox менять модель одной строкой при том же base_url. Паттерн маршрутизации — в разделе A/B через ofox.

Краткое сравнение характеристик

Цены сверены с каталогом ofox на 2026-06-13. Контекст и лимиты выхода — из документации вендоров.

ПараметрMiniMax M3Claude Opus 4.8
Model ID на ofoxminimax/minimax-m3anthropic/claude-opus-4.8
Цена входа$0,60/M токенов$5,00/M токенов
Цена выхода$2,40/M токенов$25,00/M токенов
Цена кэш-входа$0,12/M токенов$0,50/M токенов
Окно контекста1M токенов1M токенов
Максимальный выход131K токенов128K токенов (по обзору Simon Willison, 2026-05-28)
Модальности (вход)Текст + изображения + видеоТекст + изображения
SWE-Bench Pro у вендора59,0%69,2%
Релиз2026-06-012026-05-28
Open weight?Обещан, веса задержалисьНет (закрытая)
АрхитектураMiniMax Sparse Attention (MSA)Плотный transformer (Anthropic)

Две строки заслуживают паузы:

Разница в цене входа — 8,3×, в цене выхода — 10,4×. Типичный кодинг-агент выдаёт 0,2–0,5 токена выхода на токен входа, так что эффективный мультипликатор оседает между 9× и 10× в зависимости от нагрузки. Для прикидок на салфетке округляйте до ×10.

Лимит выхода — фактически ничья. M3 отдаёт 131K, Opus 4.8 — 128K. Разрыв в 3K не меняет операционную картину: оба могут за один вызов выдать небольшой файл или дюжину юнит-тестов, и оба упрутся в цепочку вызовов где-то после 130K. Если вы выбираете по запасу по выходу — это ничья, выбирайте по цене или качеству.

SWE-Bench Pro: цифра, с которой всё началось

SWE-Bench Pro — самая жёсткая ветка семейства SWE-bench: задачи из активно поддерживаемых репозиториев, мульти-файловые диффы, без утечки ground-truth. Это самое близкое, что есть в индустрии к «честному» кодинг-бенчмарку, устойчивому к запоминанию.

Расклад фронтира в начале июня 2026 выглядел так:

МодельSWE-Bench ProРелизПримечание
Claude Opus 4.869,2%2026-05-28Прогон Anthropic, официально
Claude Opus 4.764,3%2026-04С чем сравнивали M3
MiniMax M359,0%2026-06-01Прогон на своей инфраструктуре с Claude Code в обвязке
GPT-5.558,6%2026-04-23Прогон OpenAI
Gemini 3.1 Pro< 58,6%2026Ниже GPT-5.5 по публичным лидербордам

Первое предложение анонса MiniMax от 1 июня в переводе звучит примерно так: «M3 обходит GPT-5.5 и Gemini 3.1 Pro на SWE-Bench Pro при цене в десять раз ниже». По напечатанному всё верно. Что осталось за кадром: Anthropic выпустила Opus 4.8 на четыре дня раньше с результатом 69,2%, а презентация MiniMax сравнивала M3 со старой Opus 4.7 на 64,3%.

Второй сноской идёт статус независимой верификации. MiniMax прогоняли eval на собственной инфраструктуре с Claude Code в качестве агентной обвязки, методология заявлена соответствующей официальной. На момент написания статьи M3 в официальном лидерборде SWE-Bench Pro не появилась. Считайте 59,0% направлением, а не приговором — на чистом third-party прогоне может выйти 56% или 61%, и в любом случае форма остаётся той же: M3 в одной лиге с GPT-5.5, на ступень ниже Opus 4.8.

Честная одна строка: число у M3 настоящее, маркетинговая рамка — выборочная.

Terminal-Bench 2.1 и мультимодальность: где M3 догоняет

SWE-Bench Pro — только один сигнал. На Terminal-Bench 2.1 — это long-horizon исполнение в терминале, то самое «настрой окружение разработчика и прогоняй упавший тест» — MiniMax заявляет 66,0% у M3. Это сопоставимо с Opus 4.8 в схожих диапазонах по релиз-нотам Anthropic и заметно выше GPT-5.5. Причина — скорость decoding MSA на длинном контексте: ретраи длинных tool-use циклов обходятся дешевле, и в рамках бюджета агент успевает восстановиться после большего числа сбоев.

Нативная мультимодальность — второй аргумент. M3 принимает на вход изображения и видео. Opus 4.8 — только изображения. На практике для кодинга это значимо в двух кейсах: вставить скриншот стек-трейса и подсунуть короткий скринкаст с багом UI. Скриншоты тянут оба, скринкаст — только M3.

Для 95% кодинг-задач ни одно из этих свойств не перевешивает — вы смотрите в текст. Они становятся решающими только когда вы начинаете строить агентов, которые реально смотрят в браузер.

Математика цены: что на самом деле стоит 1M токенов

Бенчмарки прогоняются на идеальной инфраструктуре. Счёт же приходит за продакшн-трафик. Вот три реалистичных профиля:

Профиль нагрузкиТокеныСтоимость на M3Стоимость на Opus 4.8Мультипликатор
Рутинный рефактор-агент (1M вход + 200K выход)1,2M всего$1,08$10,009,3×
Тяжёлая генерация кода (500K вход + 500K выход)1M всего$1,50$15,0010,0×
Whole-repo grep + patch (1M вход + 50K выход)1,05M всего$0,72$6,258,7×
Long-context аудит с попаданием в кэш (1M из кэша + 50K выход)1,05M всего$0,24$1,757,3×

Расчёт по опубликованным ставкам ofox, сверенным 2026-06-13: M3 $0,60/M вход / $2,40/M выход / $0,12/M кэш; Opus 4.8 $5/M вход / $25/M выход / $0,50/M кэш. Считается просто: цена × количество токенов, без округлений.

Картина меняется ещё сильнее на масштабе команды. Возьмём типичный профиль: пять разработчиков, по 100 прогонов кодинг-агента в день, 500K входа и 100K выхода на прогон, 22 рабочих дня в месяц.

  • M3 за прогон: $0,30 + $0,24 = $0,54. В месяц: 5 × 100 × 22 × $0,54 = $5 940.
  • Opus 4.8 за прогон: $2,50 + $2,50 = $5,00. В месяц: 5 × 100 × 22 × $5,00 = $55 000.

Инженерная команда из пяти человек, гоняющая Opus по умолчанию, каждый месяц съедает небольшую ипотеку. Та же команда с M3 в качестве дефолта и Opus, вызываемой только на тяжёлых задачах (скажем, 10% прогонов), платит примерно $11K в месяц. Аргумент про цену-производительность у M3 — не «дешёвое тоже сойдёт»; он в том, что сэкономленные $44K можно потратить на Opus больше — там, где это реально нужно.

Оговорка про «open weight»: где же веса?

Анонс MiniMax от 1 июня позиционировал M3 как «первую и единственную open-weight модель», объединяющую фронтирный кодинг, 1M контекста и нативную мультимодальность. Веса и технический отчёт обещали выложить на Hugging Face и GitHub «примерно через 10 дней» — то есть в окно 10–11 июня.

На 13 июня 2026 в репозитории MiniMax-M3 на GitHub всё ещё висит: «this model is not yet released — this repository exists so the community can share what they need next». API живой, M3 можно вызывать через провайдеров, включая ofox, но self-host сегодня недоступен. Заглушка в репозитории провисела уже почти две недели.

Это не приговор — вендоры регулярно сдвигают релизы весов, и «10 дней» были мягким окном, а не контрактом. Но это меняет практику. Если вы выбрали M3 именно потому что через две недели веса упадут в ваш приватный кластер, эта ставка пока не сыграла. На сейчас и MiniMax M3, и Claude Opus 4.8 с точки зрения деплоя — это API-only; ось «open weight» в июне 2026 ничего не решает.

Когда веса всё-таки выйдут, математика поменяется ещё раз. Self-hosted M3 кластер амортизируется на ваш GPU-лизинг, а не на per-token прайс — для постоянных 24/7 нагрузок это принципиально другая кривая стоимости по сравнению с per-token Opus. Но это уже сюжет статьи, которую мы напишем в день, когда веса реально появятся на Hugging Face.

Когда брать MiniMax M3

Берите minimax/minimax-m3, если выполнено любое из:

  1. Вы гоняете кодинг-агенты в объёме. Линт-фиксеры, форматтеры, codemod-агенты, пайплайны вида «напиши docstring». В этих сценариях доминирует стоимость токенов, а не качество одного промпта, и преимущество M3 ×10 по цене съедает разрыв в ~10 пунктов качества.

  2. Вы платите за длинный контекст на входе. Whole-repo промпты (1M токенов кода на вход, маленький дифф на выход) — там, где скорость decoding MSA и цена входа M3 умножаются друг на друга. Миллион кэшированных токенов на M3 стоит $0,12 против $0,50 на Opus.

  3. Видеовход — жёсткое требование. Opus 4.8 принимает картинки, но не видео. Если агенту нужно посмотреть 30-секундную запись бага UI — в этом сравнении вариант ровно один.

  4. Вы хеджируете против ценового пояса Opus 4.8. Даже команды, предпочитающие Opus 4.8 для основного потока, маршрутизируют рутину в более дешёвую модель. M3 — самый сильный кодинг-вариант ниже $1/M, который при этом тащит 1M контекст.

  5. Вы готовы переключиться, если независимые ре-раны SWE-Bench Pro выдадут цифру ниже. Считайте 59% провизорной. Стройте стек так, чтобы свап minimax/minimax-m3 на следующего дешёвого претендента был сменой одной строки конфига.

Когда брать Claude Opus 4.8

Берите anthropic/claude-opus-4.8, если выполнено любое из:

  1. Ошибочный патч стоит дороже счёта за токены. Продакшн-хотфиксы, рефакторы с требованиями безопасности, всё, что вы бы и так ревьюили глазами перед мерджем. Разрыв в ~10 пунктов SWE-Bench Pro концентрируется на самых тяжёлых задачах — не на медианных.

  2. Вы строите агентов с упором на reasoning. «Прочитай этот постмортем и предложи три исправления». «Просмотри этот OAuth-флоу и найди баг». Прирост reasoning у Opus 4.8 относительно 4.7 ощутим по релиз-нотам Anthropic и независимым обзорам — например, у Simon Willison.

  3. Вы уже в экосистеме Anthropic. Claude Code, MCP-обвязки Anthropic, динамические воркфлоу — всё это рассчитывает на семантику tool-use в стиле Anthropic. M3 с Claude Code работает (сами MiniMax использовали его в обвязке), но на ожидаемом формате tool calls вы периодически будете цеплять края.

  4. Вам подходит ценовой пояс «Fast mode». В Opus 4.8 появился отдельный тариф $10/M вход / $50/M выход — Fast mode для задач, чувствительных к латенси. Он дороже обычного, но дешевле, чем вызывать Opus 4.7 и ждать дольше. Сравнение тут не с M3, а внутри линейки Anthropic — Opus 4.8 standard против Fast — разобрано в нашем обзоре релиза Claude Opus 4.8.

  5. Ваш eval-стенд откалиброван под Opus. Если у команды есть eval-набор «принял бы это PR старший ревьюер», натренированный на выходах Opus, смена модели обесценивает результаты до повторной калибровки. Это реальный инженерный долг, а не интуиция.

Когда не брать ни одну (и что взять вместо)

Несколько ситуаций, где само сравнение — не тот вопрос:

  • Бюджет до $0,10/M на токен, простые рефакторы. Смотрите на маленькие модели — Claude Haiku 4 или GPT-5.4 Mini, разобранные в гайде по GPT-5.4 Mini в России. Тратить $0,60/M на M3, когда GPT-5.4 Mini за $0,10/M делает тот же линт-фикс, — это театр.

  • Нужен on-prem уже сегодня. И M3 (веса не выложены), и Opus 4.8 (закрытая) — это API-only. Self-host для фронтирного кодинга сейчас — это Qwen 3.7 Max и линейка открытых китайских моделей; см. Qwen 3.7 Max против Claude на кодинг-арене.

  • Вы оптимизируете жёсткий SLA по латенси, а не цену. И M3, и Opus 4.8 сделаны под качество, а не под p50 latency. Меньшие быстрые модели обходят обоих по TTFT.

  • Нужно одновременно оценивать несколько фронтирных моделей. Соберите harness, а не выбирайте одну. Сравнение агентных IDE — Cursor 3 против Claude Code — показывает паттерн стенда.

A/B через ofox: 10 строк кода

Всё сравнение сводится к замене одной строки, если вы вызываете обе модели через OpenAI-совместимый эндпоинт ofox. Один base_url, одинаковый SDK, меняется только аргумент model.

Python — A/B обе модели в одном цикле

from openai import OpenAI

client = OpenAI(api_key=OFOX_API_KEY, base_url="https://api.ofox.ai/v1")
PROMPT = "Refactor this function to remove duplication: ..."

for model in ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": PROMPT}],
    )
    print(model, resp.usage.total_tokens, resp.choices[0].message.content[:120])

Запустите — получите потребление токенов на каждую модель и первые 120 символов выхода для визуального сравнения. Подставьте total_tokens в таблицу с математикой цены выше — и у вас стоимость прогона на реальном промпте, а не на вендорном бенчмарке.

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({ apiKey: process.env.OFOX_API_KEY, baseURL: "https://api.ofox.ai/v1" });
const prompt = "Refactor this function to remove duplication: ...";

for (const model of ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]) {
  const r = await client.chat.completions.create({ model, messages: [{ role: "user", content: prompt }] });
  console.log(model, r.usage.total_tokens, r.choices[0].message.content.slice(0, 120));
}

Та же форма, тот же эндпоинт, тот же вызов SDK. Стоимость миграции между моделями — одна строка. Только поэтому это сравнение имеет ответ в 10 строках, а не в неделе вендорного онбординга.

Для многошагового агентного цикла с tool calls тот же свап работает — обе модели принимают массивы tools в OpenAI-стиле через ofox. Прогоните формат tool calls на ваших конкретных инструментах, потому что обработка strict-режима у каждого провайдера расходится по краям, но контракт один.

Совместимость: где API двух моделей расходятся

Один эндпоинт, один вызов SDK — но есть пара острых краёв, которые стоит знать до того, как заводить любую из моделей в продакшн.

Обработка system prompt. Claude Opus 4.8 трактует роль system как строгий системный промпт с повышенным доверием. MiniMax M3 (через OpenAI-совместимый путь) растворяет system в разговоре более мягко. Если ваш агент опирается на ограничения, заданные только через system — «не вызывай этот инструмент без запроса», «всегда отвечай JSON» — M3 их соблюдает большую часть времени, но статистически чаще «уплывает» на длинных tool-loop. Обход: повторяйте критические ограничения в первом user-сообщении.

Строгость формата tool calls. Opus 4.8 жёстко проверяет JSON Schema аргументов — откажется вызывать инструмент, если у вас обязательное поле, которое модель не смогла заполнить. M3 толерантнее и может выдать вызов с плейсхолдер-строкой. Если ваш слой инструментов считает плейсхолдеры валидными, вы тихо выполните неверное действие; если валидация строгая — увидите больше ретраев. Фикс в обоих случаях один: валидируйте аргументы инструмента на сервере, а не только на уровне модели.

Семантика кэша. Обе модели поддерживают кэшированный вход, но Anthropic делит счёт на запись и чтение. На Opus 4.8 вы платите разовый cache write $6,25/M (TTL 5 минут) или $10/M (TTL 1 час), затем каждый последующий cache read идёт по $0,50/M — это цифра из таблицы характеристик выше. У M3 на ofox — единый тариф $0,12/M на чтение с неявным TTL и без отдельной наценки на запись. Для нагрузок, которые много раз в минуту попадают в один и тот же long-context промпт (например, code-review агент со статическим repo-промптом), M3 драматически дешевле на слое cache read. Для нагрузок, где кэш греется часами и cache write размазывается по многим чтениям, 1-часовой пояс Opus 4.8 уже конкурентен на токенный уровень, даже до учёта качества.

Форма стрим-чанков. Обе модели стримят OpenAI-совместимые чанки, но Opus 4.8 при включённом extended thinking выдаёт более гранулярные события delta.thinking (разобрано в нашем обзоре релиза Opus 4.8). Если ваш клиент парсит thinking-дельты отдельно от content-дельт, этот код работает против Opus и no-op против M3 — у неё thinking-дельты через OpenAI-совместимый путь пока не отдаются. Это не баг — просто неиспользуемое поле.

Rate limit на уровне провайдера. Когда вы вызываете обе модели через ofox, вы делите один rate-limit-конверт по своему API-ключу — а не две раздельные вендорские квоты. В этом и смысл шлюзовой архитектуры: фолбэк на M3, когда Opus упёрся в лимит, и наоборот — без жонглирования двумя наборами кредов.

Весь вопрос «MiniMax M3 vs Claude Opus 4.8» сворачивается до замены одной строки на одном эндпоинте — это и есть единственный вменяемый способ выбирать кодинг-модель в 2026 году.

Источники, сверенные для этой заметки