GLM 5.2 бесплатна?

Нет. Хостинговая версия в Coding Plan от Z.ai начинается примерно с $10 в месяц (тариф Lite) — после того, как Coding Plan API откроется на неделе 22 июня 2026. Открытые веса под лицензией MIT запланированы к выпуску на той же неделе на Hugging Face под `zai-org`. Self-hosting не требует лицензионных платежей, но GPU вы оплачиваете сами (карточка модели на HF теперь указывает GLM 5.2 как MoE на 753B общих параметров; число активных параметров Zhipu отдельно не публикует).

Работает ли GLM 5.2 с Claude Code?

Да, как только Coding Plan API откроется на неделе 22 июня 2026. Z.ai открыла Anthropic-совместимый endpoint `https://api.z.ai/api/anthropic` специально для Claude Code и OpenAI-совместимый Coding Plan endpoint `https://api.z.ai/api/coding/paas/v4` для остальных семи клиентов из объявления о запуске (Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code). Для Claude Code задайте `ANTHROPIC_BASE_URL` и `ANTHROPIC_AUTH_TOKEN`; для остальных — `OPENAI_BASE_URL` и `OPENAI_API_KEY`. Точные пути endpoint опубликованы в объявлении; до запуска dashboard считайте их предварительными.

Что значит контекст 1M токенов на практике?

1 000 000 токенов на вход и до 131 072 токенов на выход. Это примерно исходники среднего монолита с тестами за один запрос, но реальный потолок — ваш бюджет латентности: вызовы с длинным контекстом дольше отдают первый токен и стоят дороже даже по тарифам хостингового Coding Plan.

Опубликованы ли результаты GLM 5.2 на SWE-bench или LiveCodeBench?

Нет. По состоянию на 14 июня 2026 — через 24 часа после запуска — Zhipu не опубликовала результаты SWE-bench Verified, LiveCodeBench, HumanEval или Aider polyglot. Независимые сторонние бенчмарки тоже ещё не появились. Любое заявление о том, что GLM 5.2 «обходит Claude», следует считать непроверенным до появления чисел.

Когда и где выйдут веса под MIT?

В посте о запуске Zhipu написала «на следующей неделе» от 13 июня — то есть в неделю 22 июня 2026 (то же окно, когда открывается Z.ai Coding Plan API). Следите за `huggingface.co/zai-org` на предмет репозитория GLM-5.2. Лицензия MIT разрешает коммерческое использование, модификацию и перераспределение.

Можно ли использовать GLM 5.2 через ofox?

На момент написания — нет. Каталог ofox (проверено 15 июня 2026 по `ofox.ai/en/models`) содержит DeepSeek V4 Pro, Kimi K2.6 и Qwen3 Coder Next как управляемые китайские альтернативы для кода, но GLM 5.2 пока в списке нет. Если вам нужна управляемая китайская coding-модель через один OpenAI-совместимый endpoint прямо сейчас — ближайший аналог это DeepSeek V4 Pro.

В чём разница между режимами мышления GLM 5.2 «High» и «Max»?

Zhipu предлагает только два пресета мышления — High и Max. Никаких Low / Auto, как у других моделей рассуждения. Max расходует больше токенов мышления и предназначен для многочасовых агентных рефакторингов; High — дефолт для обычных coding-обращений. Выбор тарифа не меняет веса, только бюджет рассуждений.

Сэкономит ли локальный запуск весов GLM 5.2 деньги по сравнению с Coding Plan?

Только при очень высоком объёме. Карточка модели на HF указывает GLM 5.2 как MoE на 753B общих параметров (число активных параметров отдельно не опубликовано), что выводит модель из зоны single-GPU и подталкивает к 8x H100 или эквиваленту для production-нагрузки в полной точности. До ~3000 промптов в неделю тариф Pro за $30/мес дешевле, чем электричество плюс амортизация self-hosted узла.

Как получить доступ к GLM 5.2: цены, настройка API и план открытых весов MIT (2026)

Zhipu в одном анонсе уместила coding-модель frontier-класса с контекстом 1M токенов, веса под лицензией MIT и стартовую цену $10 в месяц. Z.ai Coding Plan API и веса под MIT открываются на неделе 22 июня 2026. Если вы ждали open-weights конкурента Claude Code, который можно реально форкнуть, — следующие семь дней это время, чтобы прочитать руководство, выбрать тариф и заранее подготовить конфигурацию клиента, чтобы подключить всё в первый же день.

Почему сейчас: окно обратного нарратива открыто

GLM 5.2 вышла не в вакууме. Сутки вокруг релиза — это причина существования этой статьи и причина, по которой вопрос «стоит ли переключиться?» перестал быть гипотетическим для части читателей.

12 июня 2026 — Anthropic получила директиву экспортного контроля от Министерства торговли США, ограничивающую доступ к Claude Fable 5 и Mythos 5 для иностранных граждан (как внутри США, так и за пределами). Триггером стало security-исследование, поднятое через Amazon: CEO Энди Джасси эскалировал jailbreak-находки до высших чинов администрации, включая министра финансов Скотта Бессента (Fortune, Semafor). Anthropic не стала выпускать вариант только для США, а сняла обе модели с публичного доступа.

13 июня 2026 — в тот же день, когда новость об отзыве у Anthropic попала в новостной цикл, — Zhipu выпустила GLM 5.2. Цзе Тан (Tsinghua, руководитель команды GLM) написал в X: «GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone» и подал запуск как прямой ответ: «внезапные ограничения некоторых frontier-моделей вызывают глубокое сожаление… доступ к frontier-моделям внезапно перекрывают по нетехническим причинам» (Jie Tang on X, 13 июня). Пост разлетелся — около 898 тыс. просмотров и главная Hacker News за 36 часов.

Сторона	Действие	Дата
США (Министерство торговли + Anthropic)	Директива экспортного контроля → Anthropic снимает Fable 5 + Mythos 5 с публичного доступа	Уведомление 12 июня, публично 13 июня 2026
Китай (Zhipu)	Выпуск GLM 5.2 + анонс выпуска весов под MIT в течение 7 дней	13 июня 2026
Публичный сигнал	Твит Цзе Тана — ~898K просмотров, главная Hacker News	13–15 июня 2026

Один нюанс, в котором важно быть точным: Anthropic не деприкировала, не отправляла на покой и не отзывала Fable 5 сама. Модель была снята после приказа экспортного контроля правительства США, и Anthropic публично оспорила тяжесть jailbreak-находки, которая запустила приказ (Tom’s Hardware). Формулировка «Anthropic закрыла Fable» в других источниках — неверная.

Большинству читателей геополитика безразлична — coding-модель выбирают по цене и бенчмаркам. Но три конкретные вещи изменятся в ближайшие 30 дней, и они определяют, стоит ли вам читать дальше:

Хеджирование: если ваша команда сидела на Claude Fable для coding-воркфлоу, а вы за пределами США, GLM 5.2 — первая coding-модель frontier-класса с лицензией (MIT, веса на следующей неделе), которую вы можете форкнуть и хостить сами. «Открытые веса как политическая страховка» — больше не абстракция.
Давление на цены: open-weights frontier-модели ставят потолок ценам на хостинговые подписки. Ожидайте, что Anthropic, OpenAI и Google смягчат тарифы coding-планов в течение ~60 дней — вне зависимости от того, насколько конкурентны бенчмарки GLM 5.2.
Паритет инструментария: Z.ai в день запуска выкатила drop-in поддержку Claude Code (выделенный endpoint /api/anthropic, см. Drop-in секцию ниже). Стандартный воркфлоу coding-CLI 2026 года больше не запирает вас в одном модельном семействе.

Если ни одно из трёх к вам не относится — переходите к настройке. Если хотя бы одно — остаток статьи это операционный путь: 10-минутный доступ после открытия Z.ai API на неделе 22 июня, drop-in замена Claude Code и план self-host после релиза весов под MIT на той же неделе.

Замечание о доступности (прочитайте первым)

Запуск Zhipu 13 июня 2026 — это анонс и документация, а не dashboard, в который можно зайти в тот же день. Две поверхности доступа открываются на следующей волне релизов Z.ai:

Z.ai Coding Plan API — открывается на неделе 22 июня 2026. Создание аккаунта, выбор тарифа Coding Plan, выдача API-ключей, а также endpoint /api/anthropic + /api/coding/paas/v4 загораются в этом окне. До этого момента URL endpoint в данном руководстве — это те, что опубликованы в посте о запуске; считайте их предварительными, пока не сможете до них достучаться.
Открытые веса под лицензией MIT — падают на той же неделе под huggingface.co/zai-org/GLM-5.2. HF-репозиторий сейчас представляет собой плейсхолдер; config.json с подтверждением архитектуры и шарды BF16 / FP8 приходят по тому же календарю.

Руководство устроено так, чтобы планировочную работу вы могли сделать на этой неделе (выбрать тариф, заранее подготовить env-переменные, решить drop-in или чистая установка), а саму настройку выполнить за ~10 минут в день, когда API включится. Если вам нужно что-то рабочее сегодня, перейдите к разделу Альтернативы — ofox уже предлагает DeepSeek V4 Pro / Kimi K2.6 / Qwen3 Coder Next на одном endpoint.

Что вы получаете с GLM 5.2 (ответ за 30 секунд)

Пункт	Значение
Что можно сегодня (13–21 июня 2026)	Прочитать руководство, выбрать тариф Coding Plan, заранее подготовить `~/.claude/settings.json` или env `OPENAI_BASE_URL`, встать в waitlist на `z.ai`, если она доступна
Что можно после открытия API (неделя 22 июня 2026)	Использовать GLM 5.2 внутри Claude Code, Cline, OpenCode, OpenClaw, Goose, Crush, Roo Code или Kilo Code через хостинговый Coding Plan от Z.ai; self-host весов под MIT с `huggingface.co/zai-org` (MoE на 753B общих параметров по карточке модели на HF)
Время до первого вызова после появления ключей	~10 минут (регистрация → API key → конфиг CLI → smoke test)
Минимальная стоимость	~$10/мес тариф Lite; ~$30/мес Pro на ~2000 промптов в неделю
Что нужно	Аккаунт Z.ai, OpenAI-совместимый coding-клиент (или любой инструмент, принимающий кастомный `base_url`) и 8 ГБ терпения на первый вызов с длинным контекстом
Что пока нельзя	Цитировать числа SWE-bench (Zhipu не публиковала), получить 5 уровней мышления (только High и Max) или взять веса через ofox (ближайший управляемый аналог — DeepSeek V4 Pro)

Когда GLM 5.2 стоит времени на настройку

Используйте эту секцию, чтобы выйти из статьи раньше.

Когда использовать GLM 5.2

Вы делаете multi-file рефакторинги в монолите и упираетесь в потолок контекста 200K у конкурирующих coding-агентов
Команда комплаенса требует открытых, аудируемых весов — MIT одна из самых дружественных open-source лицензий в LLM-пространстве
Вы хотите coding-модель китайского происхождения как хедж против ограничений доступа со стороны США — GLM 5.2 вышла в день, когда Anthropic сняла Claude Fable 5 + Mythos 5 после директивы экспортного контроля Министерства торговли США (полный таймлайн — в секции Почему сейчас)

Когда НЕ использовать GLM 5.2

Вам нужна модель с опубликованными бенчмарками до выкатки в production. По состоянию на 14 июня 2026 Zhipu не выпустила числа SWE-bench, LiveCodeBench или Aider — независимые бенчмарки минимум через несколько дней
Вы уже платите за Claude Code с Sonnet/Opus и нет конкретного пробела, который закроет GLM. Расходы на переключение (конфиг инструментов, перенастройка промптов, перезапуск eval) не оправдывают экономию ~$10/мес, если только окно контекста не реальное бутылочное горло
Вы хотите один управляемый endpoint, через который ходить к GLM, GPT-5.5 и Claude Opus 4.8 с одним API key. GLM 5.2 пока нет в ofox (проверено 15 июня 2026) — если консолидация endpoint важнее именно этой модели, см. секцию Альтернативы

Правило выхода

Если за последние 30 дней вы ни разу не упирались в потолок контекста 200K на реальной задаче — GLM 5.2 вам не нужна. Прекращайте чтение и возвращайтесь, когда Zhipu опубликует бенчмарк или ofox добавит модель — что наступит раньше.

Системные требования

Перед настройкой убедитесь, что у вас есть:

Аккаунт Z.ai с привязанным способом оплаты (Coding Plan биллится помесячно, USD или RMB)
OpenAI-совместимый coding CLI — один из: Claude Code v0.x, Cline ≥ 3.x, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code. Каждый поддерживает кастомный base_url и переопределение имени модели
Сетевой egress до api.z.ai — проверьте через curl -I https://api.z.ai/api/paas/v4/ (должен прийти HTTP-ответ, не connection error)
Боковая ветка в вашем repo для первого запуска. Coding-агенты с длинным контекстом достаточно умны, чтобы удалить несвязанные файлы при размытом промпте — никогда не направляйте их на main в первый день

Если хотите хостить веса самостоятельно после релиза на неделе 22 июня 2026, дополнительно:

8x H100 80GB GPU или эквивалент для production-нагрузки в полной точности. Карточка модели на HF подтверждает, что GLM 5.2 — это MoE на 753B общих параметров (число активных параметров отдельно не опубликовано). Community-квантизации GGUF (2-bit–4-bit) уже доступны для одномашинного инференса
vLLM или SGLang как inference-сервер (community-примеры появятся в HF-репозитории; проверяйте huggingface.co/zai-org/GLM-5.2 после публикации)
Диск для weight shards — оценка ~1.5 ТБ BF16 / ~860 ГБ FP8, если форма линии GLM-5 сохранится; до подтверждения HF-репозиторием это планировочный плейсхолдер, не цифра для закупки

Пошаговая настройка (хостинг, ~10 минут — после открытия API)

Z.ai Coding Plan API открывается на неделе 22 июня 2026. Шаги 1–4 ниже выполняются за ~10 минут в день, когда dashboard включится; до этого момента можно заранее подготовить конфигурацию CLI (шаг 3) и встать в waitlist на z.ai, если она доступна.

flowchart LR
  A[Регистрация Z.ai] --> B[Выбор тарифа Coding Plan]
  B --> C[Генерация API key]
  C --> D[Настройка CLI base_url и модели]
  D --> E[Первый smoke test]
  E --> F[Подключение repo, реальная задача]

Шаг 1: Регистрация в Z.ai Coding Plan (после открытия)

Зайдите на https://z.ai и создайте аккаунт. Выберите тариф Coding Plan:

Тариф	Цена	Квота	Кому подходит
Lite	~$10/мес	~400 промптов в неделю	Личные эксперименты, лёгкие side-проекты
Pro	~$30/мес	~2000 промптов в неделю	Solo-разработчик, ежедневный coding-агент
Max	~$80/мес	~8000 промптов в неделю	Тяжёлые агентные рефакторинги, многочасовые автономные прогоны
Team	По местам	Пул в рамках организации	3+ разработчика, делящих квоту

Ожидаемый результат: в dashboard аккаунта появляется запись «Coding Plan» с тарифом и остатком квоты.

Шаг 2: Генерация API key

В dashboard Z.ai откройте API Keys → Create new key. Ограничьте scope только «Coding Plan» — Z.ai выставляет и другие платные endpoint (general chat, vision), которые делят кошелёк, но не должны делить ключ.

export ZAI_API_KEY="zai-..."

Ожидаемый результат: ключ, начинающийся с zai-. Положите в файл секретов shell или 1Password — Z.ai показывает полный ключ ровно один раз.

Шаг 3: Настройка coding CLI

Z.ai открывает два совместимых endpoint, выбирайте подходящий вашему клиенту. Claude Code говорит на протоколе Anthropic; остальные семь клиентов запуска (Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code) — на OpenAI chat-completions.

Для Claude Code (Anthropic-совместимый endpoint) — минимальный конфиг это shell-env или блок env в ~/.claude/settings.json, разобран в секции Drop-in замена Claude Code ниже. Там же перечислено, что переносится без изменений (CLAUDE.md, slash-команды, subagent) и что меняется (пресеты мышления, мост tool-result) — прочитайте перед коммитом.

Для OpenAI-совместимых клиентов (Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code)

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # или "glm-5.2[1m]" для 1M контекста

Перезапустите CLI в том же shell, и новый endpoint вступит в силу. Для клиентов, не читающих OpenAI-переменные окружения, откройте настройки инструмента, выберите provider «OpenAI Compatible» и вставьте те же три значения. Помните: Coding Plan использует отдельный endpoint (/api/coding/paas/v4), отличный от общего per-token API Z.ai (/api/paas/v4).

Smoke test через Python SDK (вставьте в одноразовый REPL)

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

Ожидаемый результат: непустой diff или отрефакторенный фрагмент в течение ~5 секунд для короткого ввода. Для вызовов с 1M контекста ожидайте 30–90 секунд до первого токена.

Шаг 4: Первый smoke test

Прежде чем направлять GLM 5.2 на ваш repo, проверьте sanity check: (a) ключ работает, (b) попадаете в нужную модель, (c) режим мышления подключён.

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

Ожидаемый результат: OK (или OK.). Если получите отказ по идентичности модели или другое имя модели в ответе — конфиг неправильный, см. Типичные ошибки ниже.

Drop-in замена Claude Code (один блок)

Если вы читаете статью потому что Fable 5 ушёл — или потому что давно думаете о миграции с Claude Code без переписывания project setup — это самая важная секция. Z.ai в первый день выкатила отдельный endpoint /api/anthropic специально чтобы рабочее пространство Claude Code превратилось в рабочее пространство GLM 5.2 за один блок переменных окружения.

Один блок для замены

Положите это в ~/.zshrc (или ~/.bashrc, или в ~/.claude/settings.json в "env"), откройте новый shell и перезапустите claude:

# Drop-in замена: рабочее пространство Claude Code → GLM 5.2, без переписывания
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M контекст; без [1m] — дефолт
export API_TIMEOUT_MS="3000000"           # вызовы с длинным контекстом — 30–90 с

UI Claude Code продолжит показывать ярлыки «Sonnet» / «Opus», потому что клиент не знает о модели — серверная маршрутизация Z.ai направит запрос в GLM 5.2. Ваш CLAUDE.md, память проекта, slash-команды, subagent-ы и привычки harness продолжают работать без изменений.

Что переносится без изменений

Файлы CLAUDE.md уровня проекта и директории .claude/ (команды, subagent-ы, settings)
Slash-команды и кастомные определения subagent-ов
Файлы AGENTS.md и Codex-стиль наслоения инструкций (Claude Code их читает)
Поведение диспетчера инструментов Plan / Edit / Bash и его промпты
Воркфлоу multi-file рефакторинга (1M контекст покрывает большинство монорепо за один запрос)

Что меняется (прочитайте до коммита)

Бюджет мышления: GLM 5.2 поставляется только с пресетами «High» и «Max» — эквивалента эвристики thinking_budget=auto у Claude нет. Выберите вручную или примите High как дефолт.
Форматирование tool-result: Claude ожидает блоки tool_result в специфической форме. Мост Z.ai транслирует 95%+ типичных паттернов, но иногда теряет вложенные content-блоки в длинных агентных циклах. Если видите, что assistant-turn повторяет tool call вместо ack — это и есть режим отказа. Откатитесь к OpenAI-совместимому endpoint (/api/coding/paas/v4) и используйте Cline или OpenCode для этого воркфлоу.
Профиль латентности: латентность первого токена для 1M-контекста — 30–90 секунд против 5–15 у Claude на эквивалентных промптах. Строка API_TIMEOUT_MS=3000000 выше обязательна, не опциональна — дефолты Claude Code прибьют соединение на долгих вызовах Plan-режима.
Модель квоты: вы теперь тратите квоту Coding Plan, а не квоту Claude Plan. Тот же bursty agent-loop, что сжирает недельный кап Claude за несколько часов, сжирает и тариф Lite GLM; для устойчивой работы планируйте Pro или Max.

Drop-in или чистая установка Cline

Выбирайте drop-in замену, если	Выбирайте чистую установку Cline / OpenCode, если
У вас 3+ slash-команды, настроенные subagent-ы или итерированный неделями `CLAUDE.md`	Вы начинаете новый проект без инвестиций в Claude Code
Команда стандартизирована на UI Claude Code, и смена инструмента означает повторный онбординг инженеров	Остальной тулинг (lint, telemetry) говорит на OpenAI-стиле запросов
Хотите A/B-тестировать GLM 5.2 против текущего Claude-воркфлоу не сжигая sprint-день	Вы попали на проблему моста tool-result выше, и обход дороже смены инструмента

Путь отката (подготовьте до коммита)

unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL и перезапуск Claude Code. CLI claude снова подхватывает дефолты Anthropic. Состояние внутри проекта переключение не трогает — всё живёт в shell-окружении.

Типичные ошибки при настройке

Ошибка	Вероятная причина	Решение
`401 invalid_api_key`	Ключ выдан под не тот продукт или вставлен с whitespace	Перегенерируйте со scope «Coding Plan»; копируйте через буфер, не обрезающий пробелы
`model not found` на `glm-5.2` или `glm-5.2[1m]`	Z.ai использует `glm-5.2` для стандартного окна контекста, а суффикс `[1m]` — алиас модели, переключающий запрос на конфигурацию 1M-контекста	Используйте `glm-5.2[1m]` для полного окна 1M; чистый `glm-5.2` для дефолтного контекста. Оба ID валидны для endpoint Coding Plan
`429 Too Many Requests` после нескольких минут работы	Квота тарифа Lite (~400 промптов в неделю) сгорела на agent-loop	Апгрейд до Pro или сократите итерации агента через `max_iterations`
Пустое тело ответа, без ошибки	Бюджет мышления превысил `max_tokens`	Поднимите `max_tokens` до ≥ 4096; thinking-модели сначала стримят рассуждения, потом ответ
Вызов tool-use возвращён как raw JSON в тексте assistant	OpenAI-compat у Z.ai не парсит tool_use автоматически, если в запросе нет поля `tools`	Передавайте массив `tools` даже на первом ходу; или используйте Anthropic-совместимый endpoint, если клиент его поддерживает
504 / timeout на multi-file рефакторинге	Латентность первого токена на длинном контексте (>500K токенов) превышает дефолтный таймаут клиента	Поднимите `requestTimeoutMs` CLI до 600000 (10 минут) для вызовов с 1M контекстом

Командная / multi-developer конфигурация

Если квоту делят 3+ разработчика, тариф Team Coding Plan делает per-seat pooling — но паттерн отличается от solo:

Один API key на разработчика, биллинг на общий кошелёк организации — никогда не делите один ключ между машинами (это самый быстрый способ сжечь квоту на что-то не отслеживаемое)
Общий .env.team в приватном secrets-repo, содержащий только OPENAI_BASE_URL=https://api.z.ai/api/coding/paas/v4 и OPENAI_MODEL=glm-5.2[1m] — API key вне git
Бюджетный guard в CI: шаг CI с coding-агентом должен прерываться, если число completion-токенов на PR превышает N (число выбираете сами — начните с 200K и подкрутите к пятнице)
Наблюдаемость квоты: dashboard Z.ai показывает usage по каждому ключу; для программного опроса Coding Plan предоставляет quota endpoint https://api.z.ai/api/monitor/usage/quota/limit, покрывающий 5-часовой цикл токенов, недельную квоту и месячное использование MCP — затяните в свой стек наблюдаемости (Datadog, Honeycomb)

Если ваша организация не может маршрутизировать через китайский API endpoint (egress-контроль, комплаенс), практический паттерн — отзеркалить ту же OpenAI-совместимую конфигурацию на другой upstream — см. Альтернативы.

Продвинуто: план открытых весов под MIT

Анонс запуска Zhipu обещает веса под MIT «на следующей неделе» — то есть в неделю 22 июня 2026, то же окно, когда открывается Z.ai Coding Plan API. HF-организация — huggingface.co/zai-org; следите за репозиторием GLM-5.2 ради реального релиза.

Что MIT реально даёт:

Коммерческое использование, модификация, перераспределение — без потолков использования, без per-token платы после self-host
Право на fine-tuning — можно тренировать LoRA или полные fine-tune на своей кодовой базе и поставлять результат
Форки — если Zhipu отключит функцию, от которой вы зависите (или, что вероятнее, поднимет цены), community-форки продолжат работать

Что MIT не даёт:

Бесплатного обеда на inference compute. При 753B общих параметрах (по карточке модели на HF) production throughput всё ещё в зоне 8x H100, с сильной зависимостью от качества квантизации
Будущих обновлений модели — релиз MIT point-in-time; GLM 5.3 может быть открытой, а может и нет
Anthropic-уровня safety tuning — RLHF у Z.ai свой стиль, границы отказа будут другими

Реалистичный путь для большинства команд: оставайтесь на хостинговом Coding Plan ближайшие 30–60 дней, наблюдайте, как community квантизует веса в 4-битные и 2-битные варианты, и пересмотрите self-hosting, когда появится single-node конфиг.

Альтернативы: управляемые open-weights coding-модели на ofox

Если хотите один OpenAI-совместимый endpoint, уже покрывающий управляемые китайские coding-модели — без ожидания релиза весов GLM 5.2 и без сборки собственного H100-кластера — на 15 июня 2026 ofox предлагает три надёжных альтернативы:

Модель	ofox API ID	Сила	Когда выбрать вместо GLM 5.2
DeepSeek V4 Pro	`deepseek/deepseek-v4-pro`	Coding-tuned флагман, широкий community-трек	Вам нужна модель с опубликованными бенчмарками (у DeepSeek публичные, у GLM 5.2 пока нет)
Qwen3 Coder Next	`bailian/qwen3-coder-next`	Свежий Alibaba coding-уровень, мультиязычный код	Вы поставляете код в мультиязычную китайско/японскую кодовую базу и хотите first-party Qwen-поддержку
Kimi K2.6	`moonshotai/kimi-k2.6`	Длинный контекст с сильным recall	Нужен проверенный long-context, а не «заявленный, но небенчмаркнутый»

Любую из них подключаете тем же конфигом, что и GLM 5.2 — меняете только base URL и model ID:

# Тот же Cline / OpenCode конфиг, другой upstream
export OPENAI_BASE_URL="https://api.ofox.io/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

Это паттерн единого endpoint: один ключ, много моделей, без регистраций у каждого вендора. Текущие цены и capability flags см. в каталоге моделей ofox. Когда GLM 5.2 появится на ofox (пока нет — проверено 15 июня 2026), вы переключитесь сменой одной строки.

Наблюдение за статусом и квотой Z.ai

Две вещи подключите в первую неделю:

Status-страница Z.ai — добавьте в закладки в день регистрации; первые 30 дней нового продукта всегда включают хотя бы один баг тюнинга rate-limit или подсчёта квоты
Учёт usage уровня PR — пишите usage.total_tokens из каждого API-ответа в существующую PR-уровневую телеметрию (Datadog, Honeycomb, на ваш выбор). Coding-агенты склонны утекать в rabbit-hole рефакторингов и сжигать квоту — поймать это можно только на уровне PR

Источники

Codersera: «GLM 5.2 Just Launched: 1M Context, Coding-First, Open Weights Next Week (Day-One Brief)» — https://codersera.com/blog/glm-5-2-release-1m-context-coding-2026/
AI Weekly: «Zhipu Deploys GLM 5.2 to All GLM Coding Plan Tiers With 1M-Token Context» — https://aiweekly.co/node/2946
Agent-Wars: «Zhipu ships GLM 5.2 with a 1M-token context and no benchmarks» — https://agent-wars.com/news/2026-06-14-glm-5-2-million-token-context
Снапшот каталога моделей ofox — https://ofox.io/en/models
Hugging Face организация для весов — https://huggingface.co/zai-org (репозиторий GLM-5.2 на 15 июня 2026 ещё не опубликован)
Jie Tang на X — «GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone» — https://x.com/jietang/status/2065784751345287314 (13 июня 2026; ~898K просмотров к 15 июня)
Fortune: «A warning from Amazon led the White House to shut down Anthropic’s Mythos model» — https://fortune.com/2026/06/14/how-a-warning-from-amazon-led-the-white-house-to-shut-down-anthropics-mythos-model/
Semafor: «White House move to limit Anthropic linked to concerns about Chinese access to Mythos» — https://www.semafor.com/article/06/13/2026/white-house-move-to-limit-anthropic-linked-to-concerns-about-chinese-access-to-mythos
Tom’s Hardware: правительство США предупредило Anthropic о jailbreak Fable 5 — https://www.tomshardware.com/tech-industry/artificial-intelligence/trump-adviser-david-sacks-says-anthropic-refused-to-fix-fable-5-jailbreak-before-us-export-controls

Что делает этот релиз особенным — не миллион токенов контекста: Anthropic и Google там уже были. А то, что GLM 5.2 — первая coding-модель frontier-класса, где можно прочитать веса, проаудитить лицензию под MIT и запустить форк на собственном железе — не отказываясь от субсекундных откликов хостинга на время миграции. Следующие 30 дней покажут, подкрепят ли бенчмарки маркетинг.