GLM-5.2 против GPT-5.5: стоимость токенов при 10K/100K/1M запросов в день (2026)
TL;DR — По прайс-листу ofox.io GLM-5.2 стоит $1.4 input / $4.4 output за миллион токенов; GPT-5.5 — $5 / $30. Blended при соотношении input к output 2:1 это $2.40 против $13.33 за миллион токенов — соотношение стоимости 5.56x. При 100K запросах в день на prompt по 3K токенов вы потратите примерно $720/день на GLM-5.2 против $4,000/день на GPT-5.5 — около $21,600 против $120,000 в месяц. Prompt caching помогает обеим, но разрыв не закрывает. Обе модели доступны на одном OpenAI-совместимом endpoint на ofox.io, так что сравнение — это замена модели в одну строку.
Стоимость токена у GPT-5.5 в 5.56x выше, чем у GLM-5.2, при типичном миксе для кодинга — и в 6.82x на чистых output-токенах. Вопрос перестал быть «достаточно ли хорош GLM-5.2»; теперь он звучит так: какая нагрузка всё ещё оправдывает доплату за GPT-5.5.
Если хотите пропустить математику и просто прогнать A/B обеих моделей на своей нагрузке, ofox.io хостит и z-ai/glm-5.2, и openai/gpt-5.5 за одним ключом — pay-as-you-go, без месячной платы и с той же формой SDK, что у OpenAI Python-клиента. Вся математика ниже использует прайс ofox за токен, проверенный 21 июня 2026.
TL;DR: какую выбрать?
| Сценарий | Выбор | Почему |
|---|---|---|
| Чувствительные к стоимости batch-агенты для кодинга | GLM-5.2 | в 5.56x дешевле при миксе 2:1, тот же контекст 1M |
| Рефакторинг с длинным контекстом (>500K input) | GLM-5.2 | тот же контекст 1M и лимит output 128K; input дешевле в 3.57x и доминирует на input-heavy задачах |
| Пайплайны генерации кода с упором на output | GLM-5.2 | в 6.82x дешевле за output-токен |
| Codex CLI / агентные workflow с упором на Terminal-Bench | GPT-5.5 | глубина интеграции и 82.7% Terminal-Bench 2.1 |
| Чувствительное к latency интерактивное парное программирование | GPT-5.5 | заточен под скорость первого токена на коротких prompt |
| Закупки на базе Azure / требования compliance Microsoft | GPT-5.5 | линейка GPT-5.5 в ofox работает на Azure |
| Air-gapped развёртывание или необходимость fork | GLM-5.2 self-host | веса MIT на Hugging Face |
Честный вердикт для большинства команд-кодеров в 2026: направляйте чувствительный к стоимости дефолтный трафик на z-ai/glm-5.2, держите openai/gpt-5.5 на поверхности Codex CLI / интерактива, эскалируйте самые сложные 10% на Claude. Разделение на две модели ниже покрывает реалистичные 80% вашего трафика без миграции поставщика.
Что каждая модель предлагает на ofox
Обе модели живут на api.ofox.io/v1 по OpenAI-совместимому протоколу, а также на endpoint протокола Anthropic для drop-in использования в Claude Code. Скучные цифры, проверенные по каталогу моделей ofox 21 июня 2026:
| Характеристика | GLM-5.2 | GPT-5.5 |
|---|---|---|
| Появилась на ofox | 16 июня 2026 | 24 апреля 2026 |
| ID модели на ofox | z-ai/glm-5.2 | openai/gpt-5.5 |
| Страница модели | ofox.io/en/models/z-ai/glm-5.2 | ofox.io/en/models/openai/gpt-5.5 |
| Цена input | $1.4 / M токенов | $5.00 / M токенов |
| Цена output | $4.4 / M токенов | $30.00 / M токенов |
| Цена чтения из cache | $0.26 / M токенов | $0.50 / M токенов |
| Add-on web search | $0.01 / запрос | $0.01 / запрос |
| Context window | 1,000,000 токенов | 1,000,000 токенов (922K in / 128K out) |
| Максимальный output | 128,000 токенов | 128,000 токенов |
| Провайдер | Z.ai (Zhipu) | Azure (OpenAI через Microsoft) |
| Веса | Открытые (MIT, Hugging Face zai-org) | Закрытые (только API) |
Из спецификации стоит выделить два момента. Первое: context windows и потолки output практически идентичны — обе указывают контекст 1M и лимит output 128K, так что ни одна модель не позволяет выдать в одном вызове патч крупнее другой; на длинных задачах рефакторинга решающим фактором становится стоимость за токен, а не объём output. Второе: GPT-5.5 на ofox работает на Azure. Это аргумент по закупкам для тех, кто уже внутри периметра compliance Microsoft; на прайс-лист, видимый большинству аккаунтов, это не влияет, но означает, что вышестоящий провайдер — Microsoft, а не OpenAI напрямую.
Полный путь доступа к GLM-5.2 — тарифы, таймлайн весов MIT, собственный Coding Plan от Z.ai — смотрите в нашем гайде по доступу к GLM-5.2. Картину бенчмарков GPT-5.5 по кодингу против других frontier-моделей 2026 года смотрите в разборе MiniMax M3 vs GPT-5.5 по SWE-Bench.
Реальная математика за токен: три сценария нагрузки
Прайс из ценника — это просто. Интересная цифра — как выглядит инвойс на вашем реальном масштабе. Берём три сценария по реалистичному диапазону объёмов, который команды встречают в продакшене.
Блок допущений (фиксированный для всех трёх):
- 3,000 токенов на запрос, разбивка 2:1 input к output (2K in, 1K out)
- 30 дней в месяце
- Без попаданий в cache в заглавной цифре (влияние cache добавим в следующем разделе)
- Add-on web search исключён
Лёгкий: 10K запросов в день
Примерно форма небольшой команды, гоняющей один coding-agent на умеренной интенсивности, или pet-проекта на масштабе.
- Input-токенов в день: 10K × 2K = 20M
- Output-токенов в день: 10K × 1K = 10M
| Модель | Стоимость input / день | Стоимость output / день | Итого / день | Итого / месяц |
|---|---|---|---|---|
| GLM-5.2 | 20M × $1.4 = $28 | 10M × $4.4 = $44 | $72 | ~$2,160 |
| GPT-5.5 | 20M × $5.0 = $100 | 10M × $30 = $300 | $400 | ~$12,000 |
| Разница | — | — | $328/день | ~$9,840/месяц |
Средний: 100K запросов в день
Форма команды из 10 инженеров, гоняющей coding-агентов на полную, или продуктовой фичи, открывающей модель конечным пользователям при умеренной concurrency.
- Input-токенов в день: 100K × 2K = 200M
- Output-токенов в день: 100K × 1K = 100M
| Модель | Стоимость input / день | Стоимость output / день | Итого / день | Итого / месяц |
|---|---|---|---|---|
| GLM-5.2 | 200M × $1.4 = $280 | 100M × $4.4 = $440 | $720 | ~$21,600 |
| GPT-5.5 | 200M × $5.0 = $1,000 | 100M × $30 = $3,000 | $4,000 | ~$120,000 |
| Разница | — | — | $3,280/день | ~$98,400/месяц |
Тяжёлый: 1M запросов в день
Форма продакшен-флота агентов, SaaS для разработчиков на масштабе или внутренней платформы, открытой для организации с четырёхзначным числом инженеров.
- Input-токенов в день: 1M × 2K = 2B
- Output-токенов в день: 1M × 1K = 1B
| Модель | Стоимость input / день | Стоимость output / день | Итого / день | Итого / месяц |
|---|---|---|---|---|
| GLM-5.2 | 2B × $1.4 = $2,800 | 1B × $4.4 = $4,400 | $7,200 | ~$216,000 |
| GPT-5.5 | 2B × $5.0 = $10,000 | 1B × $30 = $30,000 | $40,000 | ~$1,200,000 |
| Разница | — | — | $32,800/день | ~$984,000/месяц |
Соотношение 5.56x держится на каждом уровне объёма — масштабируются только абсолютные траты. На лёгком объёме это полезная экономия; на среднем она окупает двух senior-инженеров в месяц; на тяжёлом это разница между тем, выйдет фича или будет убита по причине unit-экономики.
Эти таблицы верны для стандартного микса input к output 2:1. Соотношение дрейфует в зависимости от формы нагрузки: при 1:1 (диалоговые реплики) соотношение стоимости 6.03x; при 1:3 с упором на output (генерация кода из короткого prompt) — 6.51x; при 3:1 с упором на input (суммаризация длинного контекста) соотношение сужается до 5.23x, потому что скидка GLM-5.2 на input-токен (input дешевле в 3.57x) меньше, чем скидка на output-токен (output дешевле в 6.82x). Нагрузки с доминированием output склоняются к GLM-5.2 сильнее; нагрузки с доминированием input склоняются менее жёстко, но всё равно в пользу GLM при любом реалистичном миксе.
Влияние cache: насколько prompt caching закрывает разрыв?
Обе модели тарифицируют чтение из cache ниже полной input-ставки: GLM-5.2 по $0.26/M (скидка 81% к input), GPT-5.5 по $0.50/M (скидка 90% к input). Уровни попаданий в cache выше 50% реалистичны для нагрузок code-review, где контекст кодовой базы повторяется между запросами. Вот что 50% попаданий в input cache делают с blended-стоимостью.
При 50% попаданий в input cache (половина input-токенов отдаётся из cache, output без изменений):
| Модель | Незакешированный input ($/M) | Закешированный input ($/M) | Эффективный input ($/M) | Output ($/M) | Blended ($/M) при 2:1 | Падение vs без cache |
|---|---|---|---|---|---|---|
| GLM-5.2 | $1.40 | $0.26 | $0.83 | $4.40 | $2.02 | −15.8% |
| GPT-5.5 | $5.00 | $0.50 | $2.75 | $30.00 | $11.83 | −11.2% |
При 100% попаданий в input cache (каждый input-токен закеширован):
| Модель | Input ($/M, всё закешировано) | Output ($/M) | Blended ($/M) при 2:1 | Падение vs без cache |
|---|---|---|---|---|
| GLM-5.2 | $0.26 | $4.40 | $1.64 | −31.7% |
| GPT-5.5 | $0.50 | $30.00 | $10.33 | −22.5% |
Здесь два прочтения. Первое: cache экономит больше абсолютных долларов у GPT-5.5 на закешированный токен — вы избегаете $4.50 на закешированный миллион у GPT-5.5 против $1.14 у GLM-5.2. Если ваш CFO оценивает cache-программу по сырым сэкономленным долларам, выигрывает GPT-5.5. Второе: cache экономит большую долю всего счёта GLM-5.2 — поскольку input составляет большую часть blended-стоимости GLM-5.2, срезание input-затрат даёт больший пропорциональный эффект. При 100% попаданий в input cache GLM срезает 31.7% своего blended-счёта; GPT-5.5 — 22.5%.
Итог в том, что GLM-5.2 остаётся дешевле при любом уровне попаданий в cache. Соотношение стоимости на самом деле слегка растёт по мере роста уровня попаданий — с 5.56x без cache до 5.86x при 50% попаданий в input cache и до 6.30x при 100% попаданий в input cache. Звучит контринтуитивно, но математика простая: cache съедает большую долю blended-счёта GLM-5.2, чем у GPT-5.5, так что счёт GLM сокращается быстрее в процентах. Prompt caching — это равномерная скидка только на input; он не меняет output-ставку GPT-5.5, а именно в output живёт абсолютный долларовый разрыв.
Когда выигрывает GLM-5.2 (и когда разрыв по бенчмаркам приемлем)
Пять нагрузок, где GLM-5.2 — очевидно верное решение по маршрутизации:
- Batch code review и асинхронные прогоны рефакторинга. Ночные апгрейды зависимостей, генерация документации, пакетные lint-фиксы — работа, где доминируют общие траты на токены, а latency отдельного запроса не имеет значения. Разрыв в стоимости 5.56x накапливается через тысячи запросов за ночь.
- Рефакторинг с длинным контекстом. Контекст 1M у GLM-5.2 позволяет отправить целый модуль среднего размера в одном prompt. Его лимит output 128K идентичен GPT-5.5, так что очень крупные переписывания всё равно дробятся на обеих моделях — но GLM-5.2 выдаёт те же патчи при стоимости за токен ниже в 5.56x, а его input дешевле в 3.57x, что доминирует на input-heavy проходах рефакторинга.
- Пайплайны генерации кода с упором на output. Стоимость за output-токен — это дифференциатор на уровне 6.82x. Если ваш agent выдаёт больше кода, чем читает (генерация тестов, скаффолдинг, применение codemod), GLM-5.2 выигрывает непропорционально.
- Нагрузки с высоким уровнем попаданий в cache. Code-review агенты, переиспользующие один контекст кодовой базы, RAG-пайплайны со стабильными корпусами — чтение из cache у GLM-5.2 по $0.26/M вдвое дешевле, чем $0.50/M у GPT-5.5, и пропорциональная выгода от cache у GLM больше.
- Страховка open-weight. Веса под лицензией MIT означают, что если Z.ai изменит хостинговый прайс или условия, вы можете откатиться на self-hosting той же модели. У GPT-5.5 нет on-prem пути. Даже если вы никогда не развернёте веса, ценность опциона реальна.
Честная оговорка: разрыв по бенчмаркам с GPT-5.5 реален на агентной работе в стиле Terminal-Bench. Z.ai не публиковала результаты SWE-Bench Verified на момент запуска GLM-5.2, а независимые сторонние бенчмарки по состоянию на середину июня 2026 были в ожидании. Если ваша нагрузка зависит от многошагового shell-агентного цикла, который измеряет Terminal-Bench, GPT-5.5 всё ещё лидирует — для всего остального аргумент стоимости решающий.
Когда GPT-5.5 всё ещё имеет смысл
Три нагрузки, где доплата в 5.56x оправдывает себя:
- Codex CLI — ваша основная поверхность. Терминальный agent от OpenAI заточен под GPT-5.5 на уровне протокола — file handles, история shell, восстановление через несколько ходов после неудачных команд. Результат Terminal-Bench 2.1 (82.7%) отражает глубину интеграции не меньше, чем способности модели. Поменять модель за Codex — не бесплатный ход.
- Чувствительный к latency интерактивный кодинг. Потоки парного программирования, где каждая лишняя секунда latency первого токена бьёт по adoption. GPT-5.5 заточен под короткие prompt и быстрый первый токен; на интерактивном prompt в 5K токенов GPT-5.5 обычно выигрывает по latency.
- Закупки на базе Azure. Линейка GPT-5.5 в ofox работает на Azure, что закрывает вопрос с закупками без новой проверки поставщика для тех, кто уже внутри compliance Microsoft. Стоимость закупки нового поставщика моделей часто превышает экономию за токен для команд ниже нескольких сотен тысяч токенов в день.
Четвёртый сценарий — смешанная reasoning-нагрузка: если ваш coding-agent иногда пишет архитектурные сводки, постмортемы или research-брифы, общий потолок reasoning у GPT-5.5 выше, чем у GLM-5.2. При этом для чисто кодинговых нагрузок аргумент стоимости GLM-5.2 доминирует.
Паттерн A/B-маршрутизации через ofox: один ключ, один endpoint, две модели
И z-ai/glm-5.2, и openai/gpt-5.5 доступны на https://api.ofox.io/v1 по OpenAI-совместимому протоколу. Замена модели — это изменение одной строки. Минимальная полезная A/B-обвязка:
Python — A/B обеих моделей в одном цикле
from openai import OpenAI
import os, time
client = OpenAI(base_url="https://api.ofox.io/v1", api_key=os.environ["OFOX_API_KEY"])
prompt = "Refactor this Python function to use async/await and return early on empty list: ..."
for model in ["z-ai/glm-5.2", "openai/gpt-5.5"]:
t0 = time.time()
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
)
elapsed = time.time() - t0
print(f"{model}: {elapsed:.1f}s, {resp.usage.total_tokens} tokens")
print(resp.choices[0].message.content[:200])
Это даёт сырую latency, общий счётчик токенов и output бок о бок на вашей собственной задаче. Прогоните это на 20-30 репрезентативных кейсах из вашей реальной нагрузки — это единственный честный вход для решения о маршрутизации.
Node — та же форма
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.ofox.io/v1",
apiKey: process.env.OFOX_API_KEY,
});
const prompt = "Refactor this Python function to use async/await and return early on empty list: ...";
for (const model of ["z-ai/glm-5.2", "openai/gpt-5.5"]) {
const t0 = Date.now();
const resp = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
});
console.log(`${model}: ${(Date.now() - t0) / 1000}s, ${resp.usage.total_tokens} tokens`);
console.log(resp.choices[0].message.content.slice(0, 200));
}
Продакшен-маршрутизация — замена модели в одну строку
Тот же вызов SDK, тот же ключ, та же строка биллинга. Чтобы направить чувствительную к стоимости половину трафика на GLM-5.2 и оставить интерактивную половину на GPT-5.5:
def pick_model(request_type: str) -> str:
if request_type in {"batch_refactor", "code_review", "doc_generation"}:
return "z-ai/glm-5.2"
return "openai/gpt-5.5"
resp = client.chat.completions.create(
model=pick_model(request_type),
messages=messages,
)
Никакой миграции, никакого нового ключа, никакой отдельной сверки биллинга. Колонка модели в вашем инвойсе говорит, во что обошёлся каждый запрос; функция маршрутизации — единственное место для настройки разделения. Более широкий паттерн маршрутизации по всему каталогу ofox — включая Claude для эскалаций — смотрите в нашем гайде по AI-стеку для кодинга за $30.
Источники и справка по ценам
- Каталог моделей ofox.io: z-ai/glm-5.2 — input $1.4/M, output $4.4/M, cache $0.26/M, контекст 1M, max output 128K, появилась 16 июня 2026 (проверено 21 июня 2026)
- Каталог моделей ofox.io: openai/gpt-5.5 — input $5/M, output $30/M, cache $0.5/M, контекст 1M (922K in / 128K out), появилась 24 апреля 2026, на базе Azure (проверено 21 июня 2026)
- Гайд по доступу к GLM-5.2 — тарифы, веса MIT, Coding Plan от Z.ai
- MiniMax M3 vs GPT-5.5: бенчмарк кодинга SWE-Bench Pro — сопутствующее сравнение на базе бенчмарков
- Vellum — справка по GPT-5.5 — результат Terminal-Bench 2.1 82.7%, output-ставка $30/M подтверждена
При соотношении стоимости 5.56x, которое держится на всех уровнях объёма, и разрыве 6.82x на чистых output-токенах вопрос маршрутизации больше не «достаточно ли хорош GLM-5.2» — он звучит так: «какая нагрузка всё ещё оправдывает доплату за GPT-5.5», и «шоп на Codex CLI» — самый чистый честный ответ.


