Как получить доступ к GLM 5.2: цены, настройка API и план открытых весов MIT (2026)
(updated )

Как получить доступ к GLM 5.2: цены, настройка API и план открытых весов MIT (2026)

Zhipu в одном анонсе уместила coding-модель frontier-класса с контекстом 1M токенов, веса под лицензией MIT и стартовую цену $10 в месяц. Z.ai Coding Plan API и веса под MIT открываются на неделе 22 июня 2026. Если вы ждали open-weights конкурента Claude Code, который можно реально форкнуть, — следующие семь дней это время, чтобы прочитать руководство, выбрать тариф и заранее подготовить конфигурацию клиента, чтобы подключить всё в первый же день.

Почему сейчас: окно обратного нарратива открыто

GLM 5.2 вышла не в вакууме. Сутки вокруг релиза — это причина существования этой статьи и причина, по которой вопрос «стоит ли переключиться?» перестал быть гипотетическим для части читателей.

12 июня 2026 — Anthropic получила директиву экспортного контроля от Министерства торговли США, ограничивающую доступ к Claude Fable 5 и Mythos 5 для иностранных граждан (как внутри США, так и за пределами). Триггером стало security-исследование, поднятое через Amazon: CEO Энди Джасси эскалировал jailbreak-находки до высших чинов администрации, включая министра финансов Скотта Бессента (Fortune, Semafor). Anthropic не стала выпускать вариант только для США, а сняла обе модели с публичного доступа.

13 июня 2026 — в тот же день, когда новость об отзыве у Anthropic попала в новостной цикл, — Zhipu выпустила GLM 5.2. Цзе Тан (Tsinghua, руководитель команды GLM) написал в X: «GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone» и подал запуск как прямой ответ: «внезапные ограничения некоторых frontier-моделей вызывают глубокое сожаление… доступ к frontier-моделям внезапно перекрывают по нетехническим причинам» (Jie Tang on X, 13 июня). Пост разлетелся — около 898 тыс. просмотров и главная Hacker News за 36 часов.

СторонаДействиеДата
США (Министерство торговли + Anthropic)Директива экспортного контроля → Anthropic снимает Fable 5 + Mythos 5 с публичного доступаУведомление 12 июня, публично 13 июня 2026
Китай (Zhipu)Выпуск GLM 5.2 + анонс выпуска весов под MIT в течение 7 дней13 июня 2026
Публичный сигналТвит Цзе Тана — ~898K просмотров, главная Hacker News13–15 июня 2026

Один нюанс, в котором важно быть точным: Anthropic не деприкировала, не отправляла на покой и не отзывала Fable 5 сама. Модель была снята после приказа экспортного контроля правительства США, и Anthropic публично оспорила тяжесть jailbreak-находки, которая запустила приказ (Tom’s Hardware). Формулировка «Anthropic закрыла Fable» в других источниках — неверная.

Большинству читателей геополитика безразлична — coding-модель выбирают по цене и бенчмаркам. Но три конкретные вещи изменятся в ближайшие 30 дней, и они определяют, стоит ли вам читать дальше:

  • Хеджирование: если ваша команда сидела на Claude Fable для coding-воркфлоу, а вы за пределами США, GLM 5.2 — первая coding-модель frontier-класса с лицензией (MIT, веса на следующей неделе), которую вы можете форкнуть и хостить сами. «Открытые веса как политическая страховка» — больше не абстракция.
  • Давление на цены: open-weights frontier-модели ставят потолок ценам на хостинговые подписки. Ожидайте, что Anthropic, OpenAI и Google смягчат тарифы coding-планов в течение ~60 дней — вне зависимости от того, насколько конкурентны бенчмарки GLM 5.2.
  • Паритет инструментария: Z.ai в день запуска выкатила drop-in поддержку Claude Code (выделенный endpoint /api/anthropic, см. Drop-in секцию ниже). Стандартный воркфлоу coding-CLI 2026 года больше не запирает вас в одном модельном семействе.

Если ни одно из трёх к вам не относится — переходите к настройке. Если хотя бы одно — остаток статьи это операционный путь: 10-минутный доступ после открытия Z.ai API на неделе 22 июня, drop-in замена Claude Code и план self-host после релиза весов под MIT на той же неделе.

Замечание о доступности (прочитайте первым)

Запуск Zhipu 13 июня 2026 — это анонс и документация, а не dashboard, в который можно зайти в тот же день. Две поверхности доступа открываются на следующей волне релизов Z.ai:

  • Z.ai Coding Plan API — открывается на неделе 22 июня 2026. Создание аккаунта, выбор тарифа Coding Plan, выдача API-ключей, а также endpoint /api/anthropic + /api/coding/paas/v4 загораются в этом окне. До этого момента URL endpoint в данном руководстве — это те, что опубликованы в посте о запуске; считайте их предварительными, пока не сможете до них достучаться.
  • Открытые веса под лицензией MIT — падают на той же неделе под huggingface.co/zai-org/GLM-5.2. HF-репозиторий сейчас представляет собой плейсхолдер; config.json с подтверждением архитектуры и шарды BF16 / FP8 приходят по тому же календарю.

Руководство устроено так, чтобы планировочную работу вы могли сделать на этой неделе (выбрать тариф, заранее подготовить env-переменные, решить drop-in или чистая установка), а саму настройку выполнить за ~10 минут в день, когда API включится. Если вам нужно что-то рабочее сегодня, перейдите к разделу Альтернативы — ofox уже предлагает DeepSeek V4 Pro / Kimi K2.6 / Qwen3 Coder Next на одном endpoint.

Что вы получаете с GLM 5.2 (ответ за 30 секунд)

ПунктЗначение
Что можно сегодня (13–21 июня 2026)Прочитать руководство, выбрать тариф Coding Plan, заранее подготовить ~/.claude/settings.json или env OPENAI_BASE_URL, встать в waitlist на z.ai, если она доступна
Что можно после открытия API (неделя 22 июня 2026)Использовать GLM 5.2 внутри Claude Code, Cline, OpenCode, OpenClaw, Goose, Crush, Roo Code или Kilo Code через хостинговый Coding Plan от Z.ai; self-host весов под MIT с huggingface.co/zai-org (MoE; число параметров 5.2 официально не подтверждено — вероятно наследует ~744B общих / ~40B активных линии GLM-5)
Время до первого вызова после появления ключей~10 минут (регистрация → API key → конфиг CLI → smoke test)
Минимальная стоимость~$10/мес тариф Lite; ~$30/мес Pro на ~2000 промптов в неделю
Что нужноАккаунт Z.ai, OpenAI-совместимый coding-клиент (или любой инструмент, принимающий кастомный base_url) и 8 ГБ терпения на первый вызов с длинным контекстом
Что пока нельзяЦитировать числа SWE-bench (Zhipu не публиковала), получить 5 уровней мышления (только High и Max) или взять веса через ofox (ближайший управляемый аналог — DeepSeek V4 Pro)

Когда GLM 5.2 стоит времени на настройку

Используйте эту секцию, чтобы выйти из статьи раньше.

Когда использовать GLM 5.2

  • Вы делаете multi-file рефакторинги в монолите и упираетесь в потолок контекста 200K у конкурирующих coding-агентов
  • Команда комплаенса требует открытых, аудируемых весов — MIT одна из самых дружественных open-source лицензий в LLM-пространстве
  • Вы хотите coding-модель китайского происхождения как хедж против ограничений доступа со стороны США — GLM 5.2 вышла в день, когда Anthropic сняла Claude Fable 5 + Mythos 5 после директивы экспортного контроля Министерства торговли США (полный таймлайн — в секции Почему сейчас)

Когда НЕ использовать GLM 5.2

  • Вам нужна модель с опубликованными бенчмарками до выкатки в production. По состоянию на 14 июня 2026 Zhipu не выпустила числа SWE-bench, LiveCodeBench или Aider — независимые бенчмарки минимум через несколько дней
  • Вы уже платите за Claude Code с Sonnet/Opus и нет конкретного пробела, который закроет GLM. Расходы на переключение (конфиг инструментов, перенастройка промптов, перезапуск eval) не оправдывают экономию ~$10/мес, если только окно контекста не реальное бутылочное горло
  • Вы хотите один управляемый endpoint, через который ходить к GLM, GPT-5.5 и Claude Opus 4.8 с одним API key. GLM 5.2 пока нет в ofox (проверено 15 июня 2026) — если консолидация endpoint важнее именно этой модели, см. секцию Альтернативы

Правило выхода

Если за последние 30 дней вы ни разу не упирались в потолок контекста 200K на реальной задаче — GLM 5.2 вам не нужна. Прекращайте чтение и возвращайтесь, когда Zhipu опубликует бенчмарк или ofox добавит модель — что наступит раньше.

Системные требования

Перед настройкой убедитесь, что у вас есть:

  • Аккаунт Z.ai с привязанным способом оплаты (Coding Plan биллится помесячно, USD или RMB)
  • OpenAI-совместимый coding CLI — один из: Claude Code v0.x, Cline ≥ 3.x, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code. Каждый поддерживает кастомный base_url и переопределение имени модели
  • Сетевой egress до api.z.ai — проверьте через curl -I https://api.z.ai/api/paas/v4/ (должен прийти HTTP-ответ, не connection error)
  • Боковая ветка в вашем repo для первого запуска. Coding-агенты с длинным контекстом достаточно умны, чтобы удалить несвязанные файлы при размытом промпте — никогда не направляйте их на main в первый день

Если хотите хостить веса самостоятельно после релиза на неделе 22 июня 2026, дополнительно:

  • 8x H100 80GB GPU или эквивалент — это оценка на основе предположения, что 5.2 наследует форму ~744B общих / ~40B активных MoE линии GLM-5; на 15 июня 2026 Zhipu официально не подтвердила параметры 5.2. Пересчитайте, когда появится huggingface.co/zai-org/GLM-5.2/config.json. Ожидайте community-форки на меньшее VRAM в течение ~30 дней после релиза весов
  • vLLM или SGLang как inference-сервер (community-примеры появятся в HF-репозитории; проверяйте huggingface.co/zai-org/GLM-5.2 после публикации)
  • Диск для weight shards — оценка ~1.5 ТБ BF16 / ~860 ГБ FP8, если форма линии GLM-5 сохранится; до подтверждения HF-репозиторием это планировочный плейсхолдер, не цифра для закупки

Пошаговая настройка (хостинг, ~10 минут — после открытия API)

Z.ai Coding Plan API открывается на неделе 22 июня 2026. Шаги 1–4 ниже выполняются за ~10 минут в день, когда dashboard включится; до этого момента можно заранее подготовить конфигурацию CLI (шаг 3) и встать в waitlist на z.ai, если она доступна.

flowchart LR
  A[Регистрация Z.ai] --> B[Выбор тарифа Coding Plan]
  B --> C[Генерация API key]
  C --> D[Настройка CLI base_url и модели]
  D --> E[Первый smoke test]
  E --> F[Подключение repo, реальная задача]

Шаг 1: Регистрация в Z.ai Coding Plan (после открытия)

Зайдите на https://z.ai и создайте аккаунт. Выберите тариф Coding Plan:

ТарифЦенаКвотаКому подходит
Lite~$10/мес~400 промптов в неделюЛичные эксперименты, лёгкие side-проекты
Pro~$30/мес~2000 промптов в неделюSolo-разработчик, ежедневный coding-агент
Max~$80/мес~8000 промптов в неделюТяжёлые агентные рефакторинги, многочасовые автономные прогоны
TeamПо местамПул в рамках организации3+ разработчика, делящих квоту

Ожидаемый результат: в dashboard аккаунта появляется запись «Coding Plan» с тарифом и остатком квоты.

Шаг 2: Генерация API key

В dashboard Z.ai откройте API Keys → Create new key. Ограничьте scope только «Coding Plan» — Z.ai выставляет и другие платные endpoint (general chat, vision), которые делят кошелёк, но не должны делить ключ.

export ZAI_API_KEY="zai-..."

Ожидаемый результат: ключ, начинающийся с zai-. Положите в файл секретов shell или 1Password — Z.ai показывает полный ключ ровно один раз.

Шаг 3: Настройка coding CLI

Z.ai открывает два совместимых endpoint, выбирайте подходящий вашему клиенту. Claude Code говорит на протоколе Anthropic; остальные семь клиентов запуска (Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code) — на OpenAI chat-completions.

Для Claude Code (Anthropic-совместимый endpoint) — минимальный конфиг это shell-env или блок env в ~/.claude/settings.json, разобран в секции Drop-in замена Claude Code ниже. Там же перечислено, что переносится без изменений (CLAUDE.md, slash-команды, subagent) и что меняется (пресеты мышления, мост tool-result) — прочитайте перед коммитом.

Для OpenAI-совместимых клиентов (Cline, OpenCode, Roo Code, Goose, Crush, OpenClaw, Kilo Code)

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # или "glm-5.2[1m]" для 1M контекста

Перезапустите CLI в том же shell, и новый endpoint вступит в силу. Для клиентов, не читающих OpenAI-переменные окружения, откройте настройки инструмента, выберите provider «OpenAI Compatible» и вставьте те же три значения. Помните: Coding Plan использует отдельный endpoint (/api/coding/paas/v4), отличный от общего per-token API Z.ai (/api/paas/v4).

Smoke test через Python SDK (вставьте в одноразовый REPL)

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

Ожидаемый результат: непустой diff или отрефакторенный фрагмент в течение ~5 секунд для короткого ввода. Для вызовов с 1M контекста ожидайте 30–90 секунд до первого токена.

Шаг 4: Первый smoke test

Прежде чем направлять GLM 5.2 на ваш repo, проверьте sanity check: (a) ключ работает, (b) попадаете в нужную модель, (c) режим мышления подключён.

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

Ожидаемый результат: OK (или OK.). Если получите отказ по идентичности модели или другое имя модели в ответе — конфиг неправильный, см. Типичные ошибки ниже.

Drop-in замена Claude Code (один блок)

Если вы читаете статью потому что Fable 5 ушёл — или потому что давно думаете о миграции с Claude Code без переписывания project setup — это самая важная секция. Z.ai в первый день выкатила отдельный endpoint /api/anthropic специально чтобы рабочее пространство Claude Code превратилось в рабочее пространство GLM 5.2 за один блок переменных окружения.

Один блок для замены

Положите это в ~/.zshrc (или ~/.bashrc, или в ~/.claude/settings.json в "env"), откройте новый shell и перезапустите claude:

# Drop-in замена: рабочее пространство Claude Code → GLM 5.2, без переписывания
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M контекст; без [1m] — дефолт
export API_TIMEOUT_MS="3000000"           # вызовы с длинным контекстом — 30–90 с

UI Claude Code продолжит показывать ярлыки «Sonnet» / «Opus», потому что клиент не знает о модели — серверная маршрутизация Z.ai направит запрос в GLM 5.2. Ваш CLAUDE.md, память проекта, slash-команды, subagent-ы и привычки harness продолжают работать без изменений.

Что переносится без изменений

  • Файлы CLAUDE.md уровня проекта и директории .claude/ (команды, subagent-ы, settings)
  • Slash-команды и кастомные определения subagent-ов
  • Файлы AGENTS.md и Codex-стиль наслоения инструкций (Claude Code их читает)
  • Поведение диспетчера инструментов Plan / Edit / Bash и его промпты
  • Воркфлоу multi-file рефакторинга (1M контекст покрывает большинство монорепо за один запрос)

Что меняется (прочитайте до коммита)

  • Бюджет мышления: GLM 5.2 поставляется только с пресетами «High» и «Max» — эквивалента эвристики thinking_budget=auto у Claude нет. Выберите вручную или примите High как дефолт.
  • Форматирование tool-result: Claude ожидает блоки tool_result в специфической форме. Мост Z.ai транслирует 95%+ типичных паттернов, но иногда теряет вложенные content-блоки в длинных агентных циклах. Если видите, что assistant-turn повторяет tool call вместо ack — это и есть режим отказа. Откатитесь к OpenAI-совместимому endpoint (/api/coding/paas/v4) и используйте Cline или OpenCode для этого воркфлоу.
  • Профиль латентности: латентность первого токена для 1M-контекста — 30–90 секунд против 5–15 у Claude на эквивалентных промптах. Строка API_TIMEOUT_MS=3000000 выше обязательна, не опциональна — дефолты Claude Code прибьют соединение на долгих вызовах Plan-режима.
  • Модель квоты: вы теперь тратите квоту Coding Plan, а не квоту Claude Plan. Тот же bursty agent-loop, что сжирает недельный кап Claude за несколько часов, сжирает и тариф Lite GLM; для устойчивой работы планируйте Pro или Max.

Drop-in или чистая установка Cline

Выбирайте drop-in замену, еслиВыбирайте чистую установку Cline / OpenCode, если
У вас 3+ slash-команды, настроенные subagent-ы или итерированный неделями CLAUDE.mdВы начинаете новый проект без инвестиций в Claude Code
Команда стандартизирована на UI Claude Code, и смена инструмента означает повторный онбординг инженеровОстальной тулинг (lint, telemetry) говорит на OpenAI-стиле запросов
Хотите A/B-тестировать GLM 5.2 против текущего Claude-воркфлоу не сжигая sprint-деньВы попали на проблему моста tool-result выше, и обход дороже смены инструмента

Путь отката (подготовьте до коммита)

unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL и перезапуск Claude Code. CLI claude снова подхватывает дефолты Anthropic. Состояние внутри проекта переключение не трогает — всё живёт в shell-окружении.

Типичные ошибки при настройке

ОшибкаВероятная причинаРешение
401 invalid_api_keyКлюч выдан под не тот продукт или вставлен с whitespaceПерегенерируйте со scope «Coding Plan»; копируйте через буфер, не обрезающий пробелы
model not found на glm-5.2 или glm-5.2[1m]Z.ai использует glm-5.2 для стандартного окна контекста, а суффикс [1m] — алиас модели, переключающий запрос на конфигурацию 1M-контекстаИспользуйте glm-5.2[1m] для полного окна 1M; чистый glm-5.2 для дефолтного контекста. Оба ID валидны для endpoint Coding Plan
429 Too Many Requests после нескольких минут работыКвота тарифа Lite (~400 промптов в неделю) сгорела на agent-loopАпгрейд до Pro или сократите итерации агента через max_iterations
Пустое тело ответа, без ошибкиБюджет мышления превысил max_tokensПоднимите max_tokens до ≥ 4096; thinking-модели сначала стримят рассуждения, потом ответ
Вызов tool-use возвращён как raw JSON в тексте assistantOpenAI-compat у Z.ai не парсит tool_use автоматически, если в запросе нет поля toolsПередавайте массив tools даже на первом ходу; или используйте Anthropic-совместимый endpoint, если клиент его поддерживает
504 / timeout на multi-file рефакторингеЛатентность первого токена на длинном контексте (>500K токенов) превышает дефолтный таймаут клиентаПоднимите requestTimeoutMs CLI до 600000 (10 минут) для вызовов с 1M контекстом

Командная / multi-developer конфигурация

Если квоту делят 3+ разработчика, тариф Team Coding Plan делает per-seat pooling — но паттерн отличается от solo:

  • Один API key на разработчика, биллинг на общий кошелёк организации — никогда не делите один ключ между машинами (это самый быстрый способ сжечь квоту на что-то не отслеживаемое)
  • Общий .env.team в приватном secrets-repo, содержащий только OPENAI_BASE_URL=https://api.z.ai/api/coding/paas/v4 и OPENAI_MODEL=glm-5.2[1m] — API key вне git
  • Бюджетный guard в CI: шаг CI с coding-агентом должен прерываться, если число completion-токенов на PR превышает N (число выбираете сами — начните с 200K и подкрутите к пятнице)
  • Наблюдаемость квоты: dashboard Z.ai показывает usage по каждому ключу; для программного опроса Coding Plan предоставляет quota endpoint https://api.z.ai/api/monitor/usage/quota/limit, покрывающий 5-часовой цикл токенов, недельную квоту и месячное использование MCP — затяните в свой стек наблюдаемости (Datadog, Honeycomb)

Если ваша организация не может маршрутизировать через китайский API endpoint (egress-контроль, комплаенс), практический паттерн — отзеркалить ту же OpenAI-совместимую конфигурацию на другой upstream — см. Альтернативы.

Продвинуто: план открытых весов под MIT

Анонс запуска Zhipu обещает веса под MIT «на следующей неделе» — то есть в неделю 22 июня 2026, то же окно, когда открывается Z.ai Coding Plan API. HF-организация — huggingface.co/zai-org; следите за репозиторием GLM-5.2 ради реального релиза.

Что MIT реально даёт:

  • Коммерческое использование, модификация, перераспределение — без потолков использования, без per-token платы после self-host
  • Право на fine-tuning — можно тренировать LoRA или полные fine-tune на своей кодовой базе и поставлять результат
  • Форки — если Zhipu отключит функцию, от которой вы зависите (или, что вероятнее, поднимет цены), community-форки продолжат работать

Что MIT не даёт:

  • Бесплатного обеда на inference compute — если 5.2 наследует форму ~744B общих / ~40B активных MoE линии GLM-5 (Zhipu для 5.2 официально не подтвердила), production throughput всё ещё в зоне 8x H100, с сильной зависимостью от качества квантизации
  • Будущих обновлений модели — релиз MIT point-in-time; GLM 5.3 может быть открытой, а может и нет
  • Anthropic-уровня safety tuning — RLHF у Z.ai свой стиль, границы отказа будут другими

Реалистичный путь для большинства команд: оставайтесь на хостинговом Coding Plan ближайшие 30–60 дней, наблюдайте, как community квантизует веса в 4-битные и 2-битные варианты, и пересмотрите self-hosting, когда появится single-node конфиг.

Альтернативы: управляемые open-weights coding-модели на ofox

Если хотите один OpenAI-совместимый endpoint, уже покрывающий управляемые китайские coding-модели — без ожидания релиза весов GLM 5.2 и без сборки собственного H100-кластера — на 15 июня 2026 ofox предлагает три надёжных альтернативы:

Модельofox API IDСилаКогда выбрать вместо GLM 5.2
DeepSeek V4 Prodeepseek/deepseek-v4-proCoding-tuned флагман, широкий community-трекВам нужна модель с опубликованными бенчмарками (у DeepSeek публичные, у GLM 5.2 пока нет)
Qwen3 Coder Nextbailian/qwen3-coder-nextСвежий Alibaba coding-уровень, мультиязычный кодВы поставляете код в мультиязычную китайско/японскую кодовую базу и хотите first-party Qwen-поддержку
Kimi K2.6moonshotai/kimi-k2.6Длинный контекст с сильным recallНужен проверенный long-context, а не «заявленный, но небенчмаркнутый»

Любую из них подключаете тем же конфигом, что и GLM 5.2 — меняете только base URL и model ID:

# Тот же Cline / OpenCode конфиг, другой upstream
export OPENAI_BASE_URL="https://api.ofox.ai/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

Это паттерн единого endpoint: один ключ, много моделей, без регистраций у каждого вендора. Текущие цены и capability flags см. в каталоге моделей ofox. Когда GLM 5.2 появится на ofox (пока нет — проверено 15 июня 2026), вы переключитесь сменой одной строки.

Наблюдение за статусом и квотой Z.ai

Две вещи подключите в первую неделю:

  • Status-страница Z.ai — добавьте в закладки в день регистрации; первые 30 дней нового продукта всегда включают хотя бы один баг тюнинга rate-limit или подсчёта квоты
  • Учёт usage уровня PR — пишите usage.total_tokens из каждого API-ответа в существующую PR-уровневую телеметрию (Datadog, Honeycomb, на ваш выбор). Coding-агенты склонны утекать в rabbit-hole рефакторингов и сжигать квоту — поймать это можно только на уровне PR

Источники, проверенные для этого апдейта

Что делает этот релиз особенным — не миллион токенов контекста: Anthropic и Google там уже были. А то, что GLM 5.2 — первая coding-модель frontier-класса, где можно прочитать веса, проаудитить лицензию под MIT и запустить форк на собственном железе — не отказываясь от субсекундных откликов хостинга на время миграции. Следующие 30 дней покажут, подкрепят ли бенчмарки маркетинг.