MiniMax M3 уже действительно open-weight в июне 2026?

Пока нет. MiniMax обещали выложить веса на Hugging Face примерно через 10 дней после релиза 1 июня, но к середине июня в репозитории на GitHub всё ещё висит заглушка «модель пока не выпущена». API работает у провайдеров вроде ofox, но self-host пока невозможен.

Почему MiniMax M3 проигрывает Claude Opus 4.8 на SWE-Bench Pro?

59,0% у M3 против 69,2% у Opus 4.8 — разница примерно 10 пунктов. Сильнее всего разрыв заметен на мульти-файловых патчах из активно поддерживаемых репозиториев, где улучшения reasoning у Opus 4.8 (против 4.7 с её 64,3%) дают перевес. У M3 свой козырь — цена-производительность: примерно в 10 раз дешевле за токен при паритете с GPT-5.5 (58,6%).

MiniMax специально сравнивались с Opus 4.7, а не 4.8?

По сути да. В презентации MiniMax M3 сравнивали с Opus 4.7. Opus 4.8 Anthropic выпустила на четыре дня раньше — 28 мая. Бенчмарки замораживают за недели до анонса, так что подмена не злонамеренная, но из-за неё M3 выглядит ближе к фронту, чем показывают реальные цифры 4.8.

Реально ли MiniMax M3 обрабатывает 1M токенов кода в одном промпте?

Да, окно 1M благодаря MiniMax Sparse Attention (MSA), максимальный выход — до 131K токенов. MSA даёт примерно в 15,6 раза более быстрый decoding и в 9,7 раза быстрый prefill на 1M по сравнению со старой линейкой M2, но реальная пропускная способность на полном контексте зависит от нагрузки. Прогоните A/B против Opus 4.8 (тоже 1M) на ваших промптах перед миграцией.

Какая модель дешевле для продакшн-кодинг-агентов?

MiniMax M3, с большим отрывом. На ofox: M3 — $0,6/M на вход и $2,4/M на выход; Opus 4.8 — $5/M и $25/M. Один прогон агента с 1M входа и 200K выхода стоит около $1,08 на M3 против $10 на Opus 4.8 — разница ×9 за запрос, которая быстро накапливается на команде.

Стоит ли использовать MiniMax M3 для агентных сценариев через Claude Code?

Можно. Сами MiniMax прогоняли SWE-Bench Pro именно через Claude Code как обвязку. В настройках Claude Code укажите ofox и model ID `minimax/minimax-m3` — заработает. Следите за мелкими расхождениями в формате tool calls на длинных циклах: большинство обвязок Claude Code рассчитаны на семантику Anthropic, и не каждый провайдер ложится 1:1.

На каких бенчмарках MiniMax M3 обгоняет Claude Opus 4.8?

На метриках с поправкой на цену и на long-horizon задачах. MSA специально оптимизирован под decoding на 1M контекста, поэтому 35+ часовые автономные прогоны и рефакторы целых репозиториев должны быть выгоднее по $/задачу у M3. Opus 4.8 всё равно остаётся сильнее по чистому качеству на сложных задачах reasoning.

Проверены ли 59% на SWE-Bench Pro независимо?

Пока нет. MiniMax публикует 59,0%, прогнав бенчмарк на своей инфраструктуре с Claude Code в качестве обвязки. В официальном лидерборде SWE-Bench Pro M3 на середину июня 2026 ещё не появилась. Относитесь к цифре как к направлению, а не как к финальной оценке — до публикации независимых ре-ранов.

MiniMax M3 vs Claude Opus 4.8: SWE-Bench и цена в 10× (2026)

MiniMax M3 показала 59% на SWE-Bench Pro за десятую часть цены Claude Opus 4.8 — но заголовок «M3 обходит GPT-5.5» молча сравнивает её со старым флагманом Anthropic.

Вердикт за 30 секунд

Вопрос	Ответ
Кто выше на SWE-Bench Pro?	Claude Opus 4.8 (69,2% против 59,0% у M3)
Кто дешевле за токен?	MiniMax M3 (~×10 на вход и выход)
У кого окно контекста больше?	Ничья — у обоих 1M токенов
Open-weight доступен сегодня?	Фактически ни у одного (веса M3 задержались)
Лучше для рутинных кодинг-агентов?	M3 — разрыв в качестве съедается разрывом в цене
Лучше для сложных мульти-файловых правок?	Opus 4.8 — те самые ~10 пунктов реальны

Если ваша нагрузка — массовые агентные прогоны с чувствительной ценой, берите MiniMax M3 через minimax/minimax-m3 на ofox. Если задача — тяжёлый reasoning на мульти-файловых PR, берите anthropic/claude-opus-4.8. Чистый способ это проверить — поменять одну строку и прогнать оба на одном промпте; код в конце статьи.

TL;DR: что выбрать в четырёх типовых сценариях

Одна строка на каждый сценарий, который покрывает примерно 90% реального кодинг-кода:

Сценарий	Выбор	Почему
Линт-фиксы, форматтеры, низкорисковые рефакторы	MiniMax M3	В 10 раз дешевле за прогон; разница в качестве не видна на простых диффах
Агентные плагины IDE (Cursor, Windsurf, Cline)	MiniMax M3 по умолчанию, Opus 4.8 на «объясни этот баг»	M3 тянет объём tool-loop, Opus подключается только на тех промптах, где нужен reasoning
Мульти-файловый рефактор, где ошибочный патч стоит часа отладки	Claude Opus 4.8	Разрыв в 10 пунктов SWE-Bench = заметно меньше сломанных диффов на сложных репозиториях
Whole-repo grep+patch на 1M контекста	Тестируйте оба	MSA быстрее на длинном контексте, Opus точнее. A/B на вашем реальном репозитории

Главная ловушка — пытаться решить это одним выбором. Большинству команд нужны обе модели, маршрутизируемые по типу задачи, — и именно под это сделана возможность ofox менять модель одной строкой при том же base_url. Паттерн маршрутизации — в разделе A/B через ofox.

Краткое сравнение характеристик

Цены сверены с каталогом ofox на 2026-06-13. Контекст и лимиты выхода — из документации вендоров.

Параметр	MiniMax M3	Claude Opus 4.8
Model ID на ofox	`minimax/minimax-m3`	`anthropic/claude-opus-4.8`
Цена входа	$0,60/M токенов	$5,00/M токенов
Цена выхода	$2,40/M токенов	$25,00/M токенов
Цена кэш-входа	$0,12/M токенов	$0,50/M токенов
Окно контекста	1M токенов	1M токенов
Максимальный выход	131K токенов	128K токенов (по обзору Simon Willison, 2026-05-28)
Модальности (вход)	Текст + изображения + видео	Текст + изображения
SWE-Bench Pro у вендора	59,0%	69,2%
Релиз	2026-06-01	2026-05-28
Open weight?	Обещан, веса задержались	Нет (закрытая)
Архитектура	MiniMax Sparse Attention (MSA)	Плотный transformer (Anthropic)

Две строки заслуживают паузы:

Разница в цене входа — 8,3×, в цене выхода — 10,4×. Типичный кодинг-агент выдаёт 0,2–0,5 токена выхода на токен входа, так что эффективный мультипликатор оседает между 9× и 10× в зависимости от нагрузки. Для прикидок на салфетке округляйте до ×10.

Лимит выхода — фактически ничья. M3 отдаёт 131K, Opus 4.8 — 128K. Разрыв в 3K не меняет операционную картину: оба могут за один вызов выдать небольшой файл или дюжину юнит-тестов, и оба упрутся в цепочку вызовов где-то после 130K. Если вы выбираете по запасу по выходу — это ничья, выбирайте по цене или качеству.

SWE-Bench Pro: цифра, с которой всё началось

SWE-Bench Pro — самая жёсткая ветка семейства SWE-bench: задачи из активно поддерживаемых репозиториев, мульти-файловые диффы, без утечки ground-truth. Это самое близкое, что есть в индустрии к «честному» кодинг-бенчмарку, устойчивому к запоминанию.

Расклад фронтира в начале июня 2026 выглядел так:

Модель	SWE-Bench Pro	Релиз	Примечание
Claude Opus 4.8	69,2%	2026-05-28	Прогон Anthropic, официально
Claude Opus 4.7	64,3%	2026-04	С чем сравнивали M3
MiniMax M3	59,0%	2026-06-01	Прогон на своей инфраструктуре с Claude Code в обвязке
GPT-5.5	58,6%	2026-04-23	Прогон OpenAI
Gemini 3.1 Pro	< 58,6%	2026	Ниже GPT-5.5 по публичным лидербордам

Первое предложение анонса MiniMax от 1 июня в переводе звучит примерно так: «M3 обходит GPT-5.5 и Gemini 3.1 Pro на SWE-Bench Pro при цене в десять раз ниже». По напечатанному всё верно. Что осталось за кадром: Anthropic выпустила Opus 4.8 на четыре дня раньше с результатом 69,2%, а презентация MiniMax сравнивала M3 со старой Opus 4.7 на 64,3%.

Второй сноской идёт статус независимой верификации. MiniMax прогоняли eval на собственной инфраструктуре с Claude Code в качестве агентной обвязки, методология заявлена соответствующей официальной. На момент написания статьи M3 в официальном лидерборде SWE-Bench Pro не появилась. Считайте 59,0% направлением, а не приговором — на чистом third-party прогоне может выйти 56% или 61%, и в любом случае форма остаётся той же: M3 в одной лиге с GPT-5.5, на ступень ниже Opus 4.8.

Честная одна строка: число у M3 настоящее, маркетинговая рамка — выборочная.

Terminal-Bench 2.1 и мультимодальность: где M3 догоняет

SWE-Bench Pro — только один сигнал. На Terminal-Bench 2.1 — это long-horizon исполнение в терминале, то самое «настрой окружение разработчика и прогоняй упавший тест» — MiniMax заявляет 66,0% у M3. Это сопоставимо с Opus 4.8 в схожих диапазонах по релиз-нотам Anthropic и заметно выше GPT-5.5. Причина — скорость decoding MSA на длинном контексте: ретраи длинных tool-use циклов обходятся дешевле, и в рамках бюджета агент успевает восстановиться после большего числа сбоев.

Нативная мультимодальность — второй аргумент. M3 принимает на вход изображения и видео. Opus 4.8 — только изображения. На практике для кодинга это значимо в двух кейсах: вставить скриншот стек-трейса и подсунуть короткий скринкаст с багом UI. Скриншоты тянут оба, скринкаст — только M3.

Для 95% кодинг-задач ни одно из этих свойств не перевешивает — вы смотрите в текст. Они становятся решающими только когда вы начинаете строить агентов, которые реально смотрят в браузер.

Математика цены: что на самом деле стоит 1M токенов

Бенчмарки прогоняются на идеальной инфраструктуре. Счёт же приходит за продакшн-трафик. Вот три реалистичных профиля:

Профиль нагрузки	Токены	Стоимость на M3	Стоимость на Opus 4.8	Мультипликатор
Рутинный рефактор-агент (1M вход + 200K выход)	1,2M всего	$1,08	$10,00	9,3×
Тяжёлая генерация кода (500K вход + 500K выход)	1M всего	$1,50	$15,00	10,0×
Whole-repo grep + patch (1M вход + 50K выход)	1,05M всего	$0,72	$6,25	8,7×
Long-context аудит с попаданием в кэш (1M из кэша + 50K выход)	1,05M всего	$0,24	$1,75	7,3×

Расчёт по опубликованным ставкам ofox, сверенным 2026-06-13: M3 $0,60/M вход / $2,40/M выход / $0,12/M кэш; Opus 4.8 $5/M вход / $25/M выход / $0,50/M кэш. Считается просто: цена × количество токенов, без округлений.

Картина меняется ещё сильнее на масштабе команды. Возьмём типичный профиль: пять разработчиков, по 100 прогонов кодинг-агента в день, 500K входа и 100K выхода на прогон, 22 рабочих дня в месяц.

M3 за прогон: $0,30 + $0,24 = $0,54. В месяц: 5 × 100 × 22 × $0,54 = $5 940.
Opus 4.8 за прогон: $2,50 + $2,50 = $5,00. В месяц: 5 × 100 × 22 × $5,00 = $55 000.

Инженерная команда из пяти человек, гоняющая Opus по умолчанию, каждый месяц съедает небольшую ипотеку. Та же команда с M3 в качестве дефолта и Opus, вызываемой только на тяжёлых задачах (скажем, 10% прогонов), платит примерно $11K в месяц. Аргумент про цену-производительность у M3 — не «дешёвое тоже сойдёт»; он в том, что сэкономленные $44K можно потратить на Opus больше — там, где это реально нужно.

Оговорка про «open weight»: где же веса?

Анонс MiniMax от 1 июня позиционировал M3 как «первую и единственную open-weight модель», объединяющую фронтирный кодинг, 1M контекста и нативную мультимодальность. Веса и технический отчёт обещали выложить на Hugging Face и GitHub «примерно через 10 дней» — то есть в окно 10–11 июня.

На 13 июня 2026 в репозитории MiniMax-M3 на GitHub всё ещё висит: «this model is not yet released — this repository exists so the community can share what they need next». API живой, M3 можно вызывать через провайдеров, включая ofox, но self-host сегодня недоступен. Заглушка в репозитории провисела уже почти две недели.

Это не приговор — вендоры регулярно сдвигают релизы весов, и «10 дней» были мягким окном, а не контрактом. Но это меняет практику. Если вы выбрали M3 именно потому что через две недели веса упадут в ваш приватный кластер, эта ставка пока не сыграла. На сейчас и MiniMax M3, и Claude Opus 4.8 с точки зрения деплоя — это API-only; ось «open weight» в июне 2026 ничего не решает.

Когда веса всё-таки выйдут, математика поменяется ещё раз. Self-hosted M3 кластер амортизируется на ваш GPU-лизинг, а не на per-token прайс — для постоянных 24/7 нагрузок это принципиально другая кривая стоимости по сравнению с per-token Opus. Но это уже сюжет статьи, которую мы напишем в день, когда веса реально появятся на Hugging Face.

Когда брать MiniMax M3

Берите minimax/minimax-m3, если выполнено любое из:

Вы гоняете кодинг-агенты в объёме. Линт-фиксеры, форматтеры, codemod-агенты, пайплайны вида «напиши docstring». В этих сценариях доминирует стоимость токенов, а не качество одного промпта, и преимущество M3 ×10 по цене съедает разрыв в ~10 пунктов качества.
Вы платите за длинный контекст на входе. Whole-repo промпты (1M токенов кода на вход, маленький дифф на выход) — там, где скорость decoding MSA и цена входа M3 умножаются друг на друга. Миллион кэшированных токенов на M3 стоит $0,12 против $0,50 на Opus.
Видеовход — жёсткое требование. Opus 4.8 принимает картинки, но не видео. Если агенту нужно посмотреть 30-секундную запись бага UI — в этом сравнении вариант ровно один.
Вы хеджируете против ценового пояса Opus 4.8. Даже команды, предпочитающие Opus 4.8 для основного потока, маршрутизируют рутину в более дешёвую модель. M3 — самый сильный кодинг-вариант ниже $1/M, который при этом тащит 1M контекст.
Вы готовы переключиться, если независимые ре-раны SWE-Bench Pro выдадут цифру ниже. Считайте 59% провизорной. Стройте стек так, чтобы свап minimax/minimax-m3 на следующего дешёвого претендента был сменой одной строки конфига.

Когда брать Claude Opus 4.8

Берите anthropic/claude-opus-4.8, если выполнено любое из:

Ошибочный патч стоит дороже счёта за токены. Продакшн-хотфиксы, рефакторы с требованиями безопасности, всё, что вы бы и так ревьюили глазами перед мерджем. Разрыв в ~10 пунктов SWE-Bench Pro концентрируется на самых тяжёлых задачах — не на медианных.
Вы строите агентов с упором на reasoning. «Прочитай этот постмортем и предложи три исправления». «Просмотри этот OAuth-флоу и найди баг». Прирост reasoning у Opus 4.8 относительно 4.7 ощутим по релиз-нотам Anthropic и независимым обзорам — например, у Simon Willison.
Вы уже в экосистеме Anthropic. Claude Code, MCP-обвязки Anthropic, динамические воркфлоу — всё это рассчитывает на семантику tool-use в стиле Anthropic. M3 с Claude Code работает (сами MiniMax использовали его в обвязке), но на ожидаемом формате tool calls вы периодически будете цеплять края.
Вам подходит ценовой пояс «Fast mode». В Opus 4.8 появился отдельный тариф $10/M вход / $50/M выход — Fast mode для задач, чувствительных к латенси. Он дороже обычного, но дешевле, чем вызывать Opus 4.7 и ждать дольше. Сравнение тут не с M3, а внутри линейки Anthropic — Opus 4.8 standard против Fast — разобрано в нашем обзоре релиза Claude Opus 4.8.
Ваш eval-стенд откалиброван под Opus. Если у команды есть eval-набор «принял бы это PR старший ревьюер», натренированный на выходах Opus, смена модели обесценивает результаты до повторной калибровки. Это реальный инженерный долг, а не интуиция.

Когда не брать ни одну (и что взять вместо)

Несколько ситуаций, где само сравнение — не тот вопрос:

Бюджет до $0,10/M на токен, простые рефакторы. Смотрите на маленькие модели — Claude Haiku 4 или GPT-5.4 Mini, разобранные в гайде по GPT-5.4 Mini в России. Тратить $0,60/M на M3, когда GPT-5.4 Mini за $0,10/M делает тот же линт-фикс, — это театр.
Нужен on-prem уже сегодня. И M3 (веса не выложены), и Opus 4.8 (закрытая) — это API-only. Self-host для фронтирного кодинга сейчас — это Qwen 3.7 Max и линейка открытых китайских моделей; см. Qwen 3.7 Max против Claude на кодинг-арене.
Вы оптимизируете жёсткий SLA по латенси, а не цену. И M3, и Opus 4.8 сделаны под качество, а не под p50 latency. Меньшие быстрые модели обходят обоих по TTFT.
Нужно одновременно оценивать несколько фронтирных моделей. Соберите harness, а не выбирайте одну. Сравнение агентных IDE — Cursor 3 против Claude Code — показывает паттерн стенда.

A/B через ofox: 10 строк кода

Всё сравнение сводится к замене одной строки, если вы вызываете обе модели через OpenAI-совместимый эндпоинт ofox. Один base_url, одинаковый SDK, меняется только аргумент model.

Python — A/B обе модели в одном цикле

from openai import OpenAI

client = OpenAI(api_key=OFOX_API_KEY, base_url="https://api.ofox.io/v1")
PROMPT = "Refactor this function to remove duplication: ..."

for model in ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": PROMPT}],
    )
    print(model, resp.usage.total_tokens, resp.choices[0].message.content[:120])

Запустите — получите потребление токенов на каждую модель и первые 120 символов выхода для визуального сравнения. Подставьте total_tokens в таблицу с математикой цены выше — и у вас стоимость прогона на реальном промпте, а не на вендорном бенчмарке.

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({ apiKey: process.env.OFOX_API_KEY, baseURL: "https://api.ofox.io/v1" });
const prompt = "Refactor this function to remove duplication: ...";

for (const model of ["minimax/minimax-m3", "anthropic/claude-opus-4.8"]) {
  const r = await client.chat.completions.create({ model, messages: [{ role: "user", content: prompt }] });
  console.log(model, r.usage.total_tokens, r.choices[0].message.content.slice(0, 120));
}

Та же форма, тот же эндпоинт, тот же вызов SDK. Стоимость миграции между моделями — одна строка. Только поэтому это сравнение имеет ответ в 10 строках, а не в неделе вендорного онбординга.

Для многошагового агентного цикла с tool calls тот же свап работает — обе модели принимают массивы tools в OpenAI-стиле через ofox. Прогоните формат tool calls на ваших конкретных инструментах, потому что обработка strict-режима у каждого провайдера расходится по краям, но контракт один.

Совместимость: где API двух моделей расходятся

Один эндпоинт, один вызов SDK — но есть пара острых краёв, которые стоит знать до того, как заводить любую из моделей в продакшн.

Обработка system prompt. Claude Opus 4.8 трактует роль system как строгий системный промпт с повышенным доверием. MiniMax M3 (через OpenAI-совместимый путь) растворяет system в разговоре более мягко. Если ваш агент опирается на ограничения, заданные только через system — «не вызывай этот инструмент без запроса», «всегда отвечай JSON» — M3 их соблюдает большую часть времени, но статистически чаще «уплывает» на длинных tool-loop. Обход: повторяйте критические ограничения в первом user-сообщении.

Строгость формата tool calls. Opus 4.8 жёстко проверяет JSON Schema аргументов — откажется вызывать инструмент, если у вас обязательное поле, которое модель не смогла заполнить. M3 толерантнее и может выдать вызов с плейсхолдер-строкой. Если ваш слой инструментов считает плейсхолдеры валидными, вы тихо выполните неверное действие; если валидация строгая — увидите больше ретраев. Фикс в обоих случаях один: валидируйте аргументы инструмента на сервере, а не только на уровне модели.

Семантика кэша. Обе модели поддерживают кэшированный вход, но Anthropic делит счёт на запись и чтение. На Opus 4.8 вы платите разовый cache write $6,25/M (TTL 5 минут) или $10/M (TTL 1 час), затем каждый последующий cache read идёт по $0,50/M — это цифра из таблицы характеристик выше. У M3 на ofox — единый тариф $0,12/M на чтение с неявным TTL и без отдельной наценки на запись. Для нагрузок, которые много раз в минуту попадают в один и тот же long-context промпт (например, code-review агент со статическим repo-промптом), M3 драматически дешевле на слое cache read. Для нагрузок, где кэш греется часами и cache write размазывается по многим чтениям, 1-часовой пояс Opus 4.8 уже конкурентен на токенный уровень, даже до учёта качества.

Форма стрим-чанков. Обе модели стримят OpenAI-совместимые чанки, но Opus 4.8 при включённом extended thinking выдаёт более гранулярные события delta.thinking (разобрано в нашем обзоре релиза Opus 4.8). Если ваш клиент парсит thinking-дельты отдельно от content-дельт, этот код работает против Opus и no-op против M3 — у неё thinking-дельты через OpenAI-совместимый путь пока не отдаются. Это не баг — просто неиспользуемое поле.

Rate limit на уровне провайдера. Когда вы вызываете обе модели через ofox, вы делите один rate-limit-конверт по своему API-ключу — а не две раздельные вендорские квоты. В этом и смысл шлюзовой архитектуры: фолбэк на M3, когда Opus упёрся в лимит, и наоборот — без жонглирования двумя наборами кредов.

Весь вопрос «MiniMax M3 vs Claude Opus 4.8» сворачивается до замены одной строки на одном эндпоинте — это и есть единственный вменяемый способ выбирать кодинг-модель в 2026 году.

Источники, сверенные для этой заметки

Anthropic — Introducing Claude Opus 4.8 (сверено 2026-06-13)
Репозиторий MiniMax-M3 на GitHub (статус весов сверен 2026-06-13)
TestingCatalog в X — Opus 4.8 SWE-Bench Pro 69,2% против 64,3% у 4.7
The Decoder — MiniMax M3: open-weight model with a million-token context challenges proprietary leaders
Simon Willison — Claude Opus 4.8: a modest but tangible improvement
Снимок каталога ofox для minimax/minimax-m3 и anthropic/claude-opus-4.8 (цены сверены 2026-06-13)