GLM 5.2 は無料ですか？

いいえ。Z.ai の Coding Plan 上のホスト版は最低でも月約 $10（Lite ティア）からで、利用開始には Coding Plan API が 2026 年 6 月 22 日の週に開放される必要があります。MIT ライセンスのオープンウェイトは同じ週に Hugging Face の `zai-org` 配下で公開予定で、self-host 自体にライセンス費用はかかりませんが、GPU 代は自己負担となります（HF の model card は GLM 5.2 を総 753B パラメータの MoE と記載しています。活性パラメータ数は別途公表されていません）。

GLM 5.2 は Claude Code で使えますか？

はい。ただし Coding Plan API が 2026 年 6 月 22 日の週に開放されてからです。Z.ai は Claude Code 用に Anthropic 互換 endpoint `https://api.z.ai/api/anthropic` を公開しており、ローンチ告知に挙がっている他 7 クライアント（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）向けには OpenAI 互換 Coding Plan endpoint `https://api.z.ai/api/coding/paas/v4` を提供しています。Claude Code では `ANTHROPIC_BASE_URL` と `ANTHROPIC_AUTH_TOKEN` を、その他では `OPENAI_BASE_URL` と `OPENAI_API_KEY` を設定します。endpoint のパスはローンチ告知に記載済みのものですが、dashboard が稼働するまでは暫定として扱ってください。

1M トークンのコンテキストウィンドウは実用上どの程度ですか？

入力 1,000,000 トークン、出力は最大 131,072 トークンです。中規模のモノリスのソースとテストを 1 リクエストにまとめて入れられる程度ですが、実用上の上限はレイテンシ予算です。長コンテキストの呼び出しは最初のトークンまで時間がかかり、ホスト版 Coding Plan の料金でもコストは上がります。

GLM 5.2 は SWE-bench や LiveCodeBench のスコアを公開していますか？

いいえ。2026 年 6 月 14 日時点（ローンチから 24 時間後）で、Zhipu は SWE-bench Verified、LiveCodeBench、HumanEval、Aider polyglot のいずれの結果も公開していません。サードパーティの独立ベンチマークもまだ出ていません。「GLM 5.2 は Claude を上回る」という主張は、ベンチマーク数値が出るまで未検証として扱ってください。

MIT 重みはいつ、どこで公開されますか？

Zhipu のローンチ投稿によれば 6 月 13 日からの「来週」、つまり 2026 年 6 月 22 日の週です（Z.ai Coding Plan API の開放と同じウィンドウです）。`huggingface.co/zai-org` の GLM-5.2 リポジトリを追ってください。MIT ライセンスなので商用利用、改変、再配布すべて可能です。

GLM 5.2 を ofox 経由で使えますか？

執筆時点では使えません。ofox のカタログ（2026 年 6 月 15 日に `ofox.ai/en/models` で確認）には、マネージドな中国系コーディング代替として DeepSeek V4 Pro、Kimi K2.6、Qwen3 Coder Next が掲載されていますが、GLM 5.2 はまだリストにありません。今日、単一の OpenAI 互換 endpoint でマネージドな中国系コーディングモデルを使いたいなら、DeepSeek V4 Pro が最も近い代替です。

GLM 5.2 の「High」と「Max」思考モードの違いは何ですか？

Zhipu は思考プリセットを 2 段階のみ ― High と Max ― 提供しています。他の推論モデルにあるような Low / Auto ティアはありません。Max は思考トークンをより多く消費し、複数時間にわたる agentic なリファクタリング向けで、High は通常のコーディングターンのデフォルトです。ティア選択は重みを変えず、推論バジェットだけを変えます。

GLM 5.2 の重みをローカルで動かせば Coding Plan より安くなりますか？

ごく高頻度の利用に限ります。Zhipu は 5.2 のパラメータ数を公式公開していません。HF の model card は GLM 5.2 を総 753B パラメータの MoE と記載しており（活性パラメータ数は別途非公表）、これは単一 GPU 推論の手の届かない規模で、フル精度の本番スループットには 8x H100 相当が必要になります。週 ~3,000 プロンプト以下なら、Coding Plan の Pro ティア（月 $30）の方が、self-host ノードの電気代と償却を足した額より安くなります。

GLM 5.2 アクセスガイド：料金、API セットアップ、MIT 重み公開計画（2026 年版）

Zhipu はフロンティアクラスのコーディングモデルを一度の発表でアナウンスしました ― 1M トークンのコンテキストウィンドウ、MIT ライセンス重み、月 $10 からのエントリ価格。Z.ai Coding Plan API と MIT 重みはどちらも 2026 年 6 月 22 日の週に開放されます。フォーク可能なオープンウェイト版 Claude Code 代替を待っていたなら、今後 7 日間がガイドを読み、ティアを決め、クライアント設定を事前に組んでおいて、キーが上がった当日にそのまま配線するための好機です。

なぜ今か：逆ナラティブの窓が開いている

GLM 5.2 は真空状態でリリースされたわけではありません。リリース前後 24 時間の出来事こそが、この記事が存在する理由であり、一部の読者にとって「切り替えるべきか？」がもはや仮定の話ではなくなった理由です。

2026 年 6 月 12 日 ― Anthropic は米商務省から、外国籍利用者（米国内外問わず）の Claude Fable 5 と Mythos 5 へのアクセスを制限する輸出管理指令を受領しました。引き金になったのは Amazon 経由で報告されたセキュリティ調査結果です。CEO の Andy Jassy が jailbreak 研究を政権高官 ― 財務長官 Scott Bessent を含む ― にエスカレーションしました（Fortune、Semafor）。Anthropic は米国限定版を出す代わりに、両モデルをパブリック提供から取り下げました。

2026 年 6 月 13 日 ― Anthropic の取り下げが報道された同じ日に、Zhipu は GLM 5.2 をリリースしました。GLM チームリードの清華大学 Jie Tang 氏は X に投稿し、「GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone」と書き、ローンチを直接的な応答として位置づけました。「特定のフロンティアモデルが突然制限されたことは深く遺憾です……フロンティアモデルへのアクセスが非技術的な理由で突然絶たれている」（Jie Tang on X, 6 月 13 日）。この投稿は拡散し、36 時間で約 89.8 万回の閲覧、Hacker News のフロントページに到達しました。

当事者	動き	日付
米国（商務省 + Anthropic）	輸出管理指令 → Anthropic が Fable 5 + Mythos 5 をパブリック提供から取り下げ	通知 6 月 12 日、公表 6 月 13 日、2026
中国（Zhipu）	GLM 5.2 リリース、MIT 重みを 7 日以内に公開と告知	2026 年 6 月 13 日
公的シグナル	Jie Tang ツイート ― 約 89.8 万閲覧、Hacker News フロントページ	2026 年 6 月 13〜15 日

ひとつ正確に書いておくべきニュアンスがあります：Fable 5 は Anthropic 自身によって deprecate、sunset、retire されたわけではありません。米政府の輸出管理命令を受けて取り下げられたものであり、Anthropic はその命令の引き金となった jailbreak 調査結果の深刻度について公に異議を唱えています（Tom’s Hardware）。他で読むなら「Anthropic が Fable をシャットダウンした」という表現は誤りです。

ほとんどの読者にとってこの地政学は無関係で、コーディングモデルは価格とベンチマークで選びます。しかし、今後 30 日間に変わる具体的なことが 3 つあり、この記事の残りを読む価値があるかを決めるのはそれらです：

ヘッジ価値：あなたのチームが Claude Fable をコーディングワークフローで使っていて米国外にいるなら、GLM 5.2 はライセンス（MIT、重み公開は来週）でフォークして self-host できる初のフロンティアクラスコーディングモデルです。「政治的保険としてのオープンウェイト」はもう抽象論ではありません。
価格圧力：オープンウェイトのフロンティアモデルはホスト型サブスクリプション価格の天井を作ります。GLM 5.2 のベンチマークが競争力を持つかどうかに関係なく、Anthropic、OpenAI、Google は約 60 日以内に Coding Plan ティアを緩めるでしょう。
ツーリングの同等性：Z.ai は初日に Claude Code drop-in 対応を出しました（専用 /api/anthropic endpoint、下の Drop-in セクション参照）。2026 年標準のコーディング CLI ワークフローは、もはや単一モデルファミリにロックインされません。

3 つのどれにも当てはまらないなら、セットアップセクションまで飛んでください。どれかひとつでも当てはまるなら、残りは実務パスです：6 月 22 日の週に Z.ai API が開放されたら 10 分でアクセス、Claude Code の drop-in 置き換え、そして同じ週に MIT 重みが落ちた後の self-host プラン。

可用性に関する注記（まずお読みください）

Zhipu の 2026 年 6 月 13 日のローンチは告知 + ドキュメントであり、当日にサインインできる dashboard ではありません。2 つのアクセス面が Z.ai 次のリリース波で開放されます：

Z.ai Coding Plan API ― 2026 年 6 月 22 日の週に開放されます。アカウント作成、Coding Plan ティアの選択、API キーの発行、そして /api/anthropic と /api/coding/paas/v4 の両 endpoint がそのウィンドウで稼働します。それまで、本ガイドの endpoint URL はローンチ投稿に掲載されたもので、実際に到達できるまでは暫定として扱ってください。
MIT ライセンスのオープンウェイト ― 同じ週に huggingface.co/zai-org/GLM-5.2 の下で公開されます。HF リポジトリは現時点ではプレースホルダで、アーキテクチャを確定する config.json と BF16 / FP8 シャードはそのカレンダーで落ちます。

本ガイドは、今週は計画作業（ティア選定、env 変数の事前 stage、drop-in かクリーンインストールかの判断）を行い、API が開いた日にセットアップを ~10 分で完了できるように構成しています。今日動くものが必要なら、代替案セクションへ ― ofox はすでに DeepSeek V4 Pro / Kimi K2.6 / Qwen3 Coder Next を単一 endpoint で提供しています。

GLM 5.2 で得られるもの（30 秒で答える）

項目	内容
今日できること（2026 年 6 月 13〜21 日）	本ガイドを読み、Coding Plan のティアを選び、`~/.claude/settings.json` または `OPENAI_BASE_URL` の env を事前 stage し、`z.ai` で可能なら waitlist に並ぶ
API 開放後にできること（2026 年 6 月 22 日の週）	Z.ai のホスト型 Coding Plan 経由で、Claude Code、Cline、OpenCode、OpenClaw、Goose、Crush、Roo Code、Kilo Code から GLM 5.2 を使う。`huggingface.co/zai-org` から MIT ライセンスの重みを self-host する（HF の model card によれば総 753B パラメータの MoE）
キーが上がってからの初回呼び出し時間	約 10 分（サインアップ → API key → CLI 設定 → smoke test）
最低コスト	約 $10/月の Lite ティア、約 $30/月の Pro ティアで週 ~2,000 プロンプト
必要なもの	Z.ai アカウント、OpenAI 互換コーディングクライアント（または任意の `base_url` を受け付ける任意のツール）、最初の長コンテキスト呼び出し用に 8 GB ぶんの忍耐
まだできないこと	SWE-bench の数字を引用する（Zhipu は公開していません）、5 段階の思考プリセットを使う（High と Max のみ）、ofox 経由で重みを取得する（DeepSeek V4 Pro が最も近いマネージド類似モデル）

判断フレーム：GLM 5.2 をセットアップする時間に値するのはいつか

このセクションは記事を読み続けるかを決めるために使ってください。

GLM 5.2 を使うとき

モノリスでマルチファイルのリファクタリングを回しており、競合コーディングエージェントの 200K コンテキスト上限に何度も当たっている
コンプライアンスチームが開かれた監査可能なモデル重みを要求している ― MIT は LLM 空間で最も友好的なオープンソースライセンスのひとつです
米国側のアクセス制限に対するヘッジとして中国発のコーディングモデルが欲しい ― GLM 5.2 は、Anthropic が米商務省の輸出管理指令を受けて Claude Fable 5 + Mythos 5 を取り下げた日にリリースされました（タイムラインは上のなぜ今か参照）

GLM 5.2 を使わないとき

本番チームに出す前に公開ベンチマークのあるモデルが必要。2026 年 6 月 14 日時点で Zhipu は SWE-bench、LiveCodeBench、Aider のいずれの数字も出していません ― 独立ベンチマークまでは最低でも数日かかります
Sonnet/Opus で Claude Code に課金済みで、GLM が埋める具体的なギャップがない。切り替えコスト（ツール設定、プロンプト再調整、eval 再実行）はコンテキストウィンドウが実際のボトルネックでない限り、月約 $10 の節約に見合いません
ひとつの API key で GLM、GPT-5.5、Claude Opus 4.8 をまとめて呼べる単一マネージド endpoint が欲しい。GLM 5.2 はまだ ofox にはありません（2026 年 6 月 15 日に確認） ― 個別モデルより endpoint 集約が重要なら代替案セクションへ

中止ルール

過去 30 日の実タスクで 200K トークンのコンテキスト上限に当たっていないなら、GLM 5.2 は不要です。ここで読むのをやめ、Zhipu がベンチマークを出すか ofox がモデルを掲載するか、どちらか早い方で再訪してください。

システム要件

セットアップを始める前に、以下を確認してください：

支払い手段を登録した Z.ai アカウント（Coding Plan は月次請求、USD または RMB）
OpenAI 互換コーディング CLI ― 以下のいずれか：Claude Code v0.x、Cline ≥ 3.x、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code。いずれもカスタム base_url とモデル名の上書きをサポートします
api.z.ai へのネットワーク egress ― curl -I https://api.z.ai/api/paas/v4/ で確認（HTTP レスポンスが返ってくるべきで、接続エラーではいけません）
初回実行用の repo のサイドブランチ ― 長コンテキストのコーディングエージェントは、曖昧なプロンプトで無関係なファイルを削除するくらい賢いことがあります。初日に main に向けてはいけません

2026 年 6 月 22 日の週に重みが落ちたら self-host したいなら、追加要件：

8x H100 80GB GPU か同等品でフル精度の本番スループット。HF の model card は GLM 5.2 を総 753B パラメータの MoE と確認しています（活性パラメータ数は別途非公表）。コミュニティ製の低 VRAM GGUF 量子化（2-bit〜4-bit）は単一マシン推論向けに既に出ています
vLLM か SGLang を inference サーバとして（コミュニティ事例は HF リポジトリに出てきます。公開後は huggingface.co/zai-org/GLM-5.2 を確認）
重み shard 用のディスク容量 ― GLM-5 系の形状が当てはまるなら BF16 で ~1.5 TB、FP8 で ~860 GB 程度を想定。HF リポジトリで確認できるまでは調達数値ではなく計画用のプレースホルダとして扱ってください

セットアップ手順（ホスト版、約 10 分 — API 開放後）

Z.ai Coding Plan API は 2026 年 6 月 22 日の週に開放されます。下の Step 1〜4 は dashboard が稼働した当日に ~10 分で走り抜けられます。それまでは CLI 設定（Step 3）を事前 stage し、z.ai で可能なら waitlist に並んでおきましょう。

flowchart LR
  A[Z.ai サインアップ] --> B[Coding Plan ティア選択]
  B --> C[API key 生成]
  C --> D[CLI に base_url とモデル名を設定]
  D --> E[初回 smoke test]
  E --> F[repo に接続、実タスクを実行]

Step 1：Z.ai Coding Plan にサインアップ（開放後）

https://z.ai でアカウントを作成し、Coding Plan のティアを選びます：

ティア	概算価格	クォータ	想定ユース
Lite	約 $10/月	週 ~400 プロンプト	個人の試用、軽いサイドプロジェクト
Pro	約 $30/月	週 ~2,000 プロンプト	個人開発者、日常のコーディングエージェント利用
Max	約 $80/月	週 ~8,000 プロンプト	ヘビーな agentic リファクタリング、複数時間の自律実行
Team	席数ベース	組織共有プール	3 人以上の開発者でクォータを共有

期待される結果：アカウントダッシュボードに「Coding Plan」エントリが現れ、ティアと残クォータが表示されます。

Step 2：API key を生成する

Z.ai ダッシュボードで API Keys → Create new key を開きます。スコープは「Coding Plan」のみに限定してください ― Z.ai は他にも有料 endpoint（一般 chat、vision）を提供しており、財布は共有しますが key は共有すべきではありません。

export ZAI_API_KEY="zai-..."

期待される結果：zai- で始まる key が出ます。shell の秘密ファイルか 1Password に入れてください ― Z.ai はフル key を一度しか表示しません。

Step 3：コーディング CLI を設定する

Z.ai は 2 つの互換 endpoint を公開しており、クライアントに応じて選びます。Claude Code は Anthropic プロトコルを話し、ローンチ日対応の他 7 クライアント（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）は OpenAI chat-completions 形式を話します。

Claude Code（Anthropic 互換 endpoint）の場合 ― 最小構成は shell-env か ~/.claude/settings.json の env ブロックで、下の Claude Code の Drop-in 置き換えセクションで扱います。そのセクションには、そのまま引き継がれるもの（CLAUDE.md、slash コマンド、subagent）と変わるもの（思考プリセット、tool-result ブリッジング）も列挙しています。コミット前に必ず読んでからブロックを貼ってください。

OpenAI 互換クライアント（Cline、OpenCode、Roo Code、Goose、Crush、OpenClaw、Kilo Code）の場合

export OPENAI_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export OPENAI_API_KEY="$ZAI_API_KEY"
export OPENAI_MODEL="glm-5.2"   # 1M コンテキストなら "glm-5.2[1m]"

同じ shell で CLI を再起動すれば、新しい endpoint が引き継がれます。OpenAI 環境変数を読まないクライアントでは、ツールの設定パネルを開き、「OpenAI Compatible」プロバイダを選んで同じ 3 つの値を貼ってください。Coding Plan は Z.ai の汎用トークン課金 API（/api/paas/v4）とは別の専用 endpoint（/api/coding/paas/v4）を使う点に注意してください。

Python SDK の smoke test（任意の使い捨て REPL に貼り付け）

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.z.ai/api/coding/paas/v4",
    api_key=os.environ["ZAI_API_KEY"],
)
resp = client.chat.completions.create(
    model="glm-5.2[1m]",
    messages=[{"role": "user", "content": "Refactor this function to async:\n\n" + open("handler.py").read()}],
)
print(resp.choices[0].message.content)

期待される結果：短い入力なら ~5 秒以内に空でない diff やリファクタリング済みスニペットが返ります。1M コンテキスト呼び出しでは最初のトークンまで 30〜90 秒を見込んでください。

Step 4：初回 smoke test

GLM 5.2 を自分の repo に向ける前に、(a) key が動く、(b) 正しいモデルに当たっている、(c) 思考モードが繋がっている、を確認する sanity check を実行します。

curl -s https://api.z.ai/api/coding/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"glm-5.2[1m]","messages":[{"role":"user","content":"Reply with only the string OK if you are GLM 5.2."}],"max_tokens":16}' \
  | jq -r '.choices[0].message.content'

期待される結果：OK（または OK.）。モデル身元の拒否や別のモデル名が返ってきたら設定が間違っています ― 下のよくあるエラーを参照してください。

Claude Code の Drop-in 置き換え（ひとつのブロックで切り替え）

Fable 5 が消えたためにこの記事を読んでいる ― あるいは project setup を書き直さずに Claude Code から移行することを考えていた ― なら、このセクションが最重要です。Z.ai は初日に専用の /api/anthropic endpoint をリリースしました。まさに、Claude Code のワークスペースが環境変数 1 ブロックで GLM 5.2 ワークスペースに変わるようにするためです。

ワンブロック置き換え

これを ~/.zshrc（または ~/.bashrc、あるいは ~/.claude/settings.json の "env" 配下）に入れて、新しい shell を開き、claude を再起動します：

# Drop-in 置き換え：Claude Code ワークスペース → GLM 5.2、プロジェクトの書き直し不要
export ANTHROPIC_BASE_URL="https://api.z.ai/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="$ZAI_API_KEY"
export ANTHROPIC_MODEL="glm-5.2[1m]"      # 1M コンテキスト。[1m] を外せばデフォルト
export API_TIMEOUT_MS="3000000"           # 長コンテキスト呼び出しは 30〜90 秒

Claude Code の UI は引き続き「Sonnet」「Opus」ラベルを表示します ― クライアントがモデル認識しないため ― が、Z.ai 側のサーバマッピングがリクエストを GLM 5.2 にルーティングします。CLAUDE.md、プロジェクトメモリ、slash コマンド、subagent、harness の習慣はそのまま動きます。

そのまま引き継がれるもの

プロジェクトレベルの CLAUDE.md ファイルと .claude/ ディレクトリ（コマンド、subagent、settings）
Slash コマンドとカスタム subagent 定義
AGENTS.md ファイルと Codex 風のインストラクション階層（Claude Code はこれを読みます）
Plan / Edit / Bash ツールディスパッチャの挙動とそのプロンプト
マルチファイルリファクタリングのワークフロー（1M コンテキストはほとんどのモノレポを 1 リクエストでカバー）

変わるもの（コミット前に必ず読んでください）

思考バジェット：GLM 5.2 は「High」と「Max」のプリセットしか提供しません ― Claude の thinking_budget=auto ヒューリスティクスに相当するものはありません。明示的に選ぶか、デフォルトの High を受け入れてください。
Tool-result のフォーマット：Claude は tool_result ブロックを特定の形で期待します。Z.ai のブリッジは一般的なパターンの 95% 以上を翻訳しますが、長い agentic ループで時々ネストされた content ブロックを落とします。assistant ターンが ack せずに同じ tool call を繰り返しているのを見たら、それが故障モードです ― OpenAI 互換 endpoint（/api/coding/paas/v4）にフォールバックし、そのワークフローでは Cline か OpenCode を使ってください。
レイテンシプロファイル：1M コンテキスト呼び出しの初回トークンレイテンシは 30〜90 秒で、同等サイズの Claude プロンプトの 5〜15 秒と比較になります。上の API_TIMEOUT_MS=3000000 は必須でオプションではありません ― Claude Code のデフォルト値は長い Plan モード呼び出しで接続を切ります。
クォータモデル：Claude Plan クォータではなく Coding Plan クォータを消費します。Claude の週次キャップを数時間で吸い尽くす bursty なエージェントループは、Lite ティアの GLM プランも同じく吸い尽くします ― 持続的な作業には Pro か Max を予算してください。

Drop-in 置き換えか、Cline をクリーンインストールか

Drop-in 置き換えを選ぶケース	Cline / OpenCode のクリーンインストールを選ぶケース
3 つ以上の slash コマンド、チューニング済みの subagent、何週間も改良した `CLAUDE.md` がある	Claude Code への投資がない新規プロジェクトを始める
チームが Claude Code の UI で標準化済みで、ツールを変えるとエンジニアの再オンボーディングが発生する	他のツーリング（lint、telemetry）が OpenAI スタイルのリクエストを話す
Sprint の 1 日を燃やさずに GLM 5.2 を現行 Claude ワークフローと A/B したい	上の tool-result ブリッジ問題に当たり、回避策がツール切り替えより面倒

元に戻すパス（コミット前に準備）

unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN ANTHROPIC_MODEL して Claude Code を再起動します。claude CLI が Anthropic のデフォルトを再び拾います。プロジェクト内部の状態は置き換えで一切触られません ― すべて shell 環境で完結します。

セットアップ時のよくあるエラー

エラー	原因として考えられること	対処
`401 invalid_api_key`	key を別製品スコープで作成、または貼り付けに空白が混入	「Coding Plan」スコープで再生成、空白を消さないクリップボード経由で貼り付け
`glm-5.2` または `glm-5.2[1m]` で `model not found`	Z.ai では `glm-5.2` が標準コンテキストウィンドウを指し、`[1m]` サフィックスは 1M コンテキスト構成に切り替えるモデルエイリアス	完全 1M ウィンドウが必要なら `glm-5.2[1m]`、デフォルトコンテキスト呼び出しなら `glm-5.2`。両方とも Coding Plan endpoint で有効な model ID
数分作業後に `429 Too Many Requests`	Lite ティアのクォータ（週 ~400 プロンプト）が agent ループで燃え尽き	Pro にアップグレード、または `max_iterations` でエージェント反復ループを減らす
エラーなしで空のレスポンスボディ	思考バジェットが `max_tokens` を超過	`max_tokens` を 4096 以上に引き上げ。thinking モデルは推論をストリームしてから回答
Tool-use 呼び出しが assistant テキスト内の raw JSON として返る	Z.ai の OpenAI 互換層は、リクエストに `tools` フィールドがないと tool_use を自動パースしない	最初のターンから `tools` 配列を渡す、またはクライアントが対応するなら Anthropic 互換 endpoint を使う
マルチファイルリファクタで 504 / timeout	長コンテキスト（>500K トークン）の初回トークンレイテンシがクライアントのデフォルトタイムアウトを超える	CLI の `requestTimeoutMs` を 600000（10 分）まで上げて 1M コンテキスト呼び出しに対応

チーム / マルチ開発者構成

3 人以上の開発者でクォータを共有するなら、Coding Plan の Team ティアが席数プーリングをサポートします ― が、solo とはセットアップパターンが違います：

開発者ごとに 1 つの API key、請求は同じ組織ウォレットへ ― 1 つの key をマシン間で共有するのは禁物（追跡できないものでクォータを燃やす最速の方法です）
共有 .env.team をプライベート secrets repo にチェックイン、内容は OPENAI_BASE_URL=https://api.z.ai/api/coding/paas/v4 と OPENAI_MODEL=glm-5.2[1m] のみ ― API key は git に入れない
CI に予算ガード：コーディングエージェントの CI ステップで、PR あたりの completion トークン数が N を超えたら中断（数値はあなたが決める ― まず 200K で始め、金曜に調整）
クォータ可観測性：Z.ai ダッシュボードは key ごとの使用量を表示。プログラム的に polling するなら、Coding Plan が https://api.z.ai/api/monitor/usage/quota/limit で quota endpoint を公開しており、5 時間のトークンサイクル、週次クォータ、月次 MCP 使用量をカバーします ― 既存の可観測性スタック（Datadog、Honeycomb）に流し込んでください

組織が中国 API endpoint を経由できない（egress 制御、コンプライアンス）場合、実用的なパターンは同じ OpenAI 互換構成を別の上流にミラーすることです ― Alternatives を参照してください。

上級：MIT オープンウェイト計画

Zhipu のローンチ告知は MIT ライセンス重みを「来週」、つまり 2026 年 6 月 22 日の週に出すと約束しています。これは Z.ai Coding Plan API の開放と同じウィンドウです。HF 組織は huggingface.co/zai-org、実際のドロップは GLM-5.2 リポジトリを追ってください。

MIT が実際に与えるもの：

商用利用、改変、再配布 ― 使用量上限なし、self-host 後はトークン課金なし
fine-tuning の権利 ― 自分のコードベースで LoRA や全パラメータ fine-tune を学習し、その結果を出荷できる
フォーク ― Zhipu が依存している機能を停止しても（より現実的には価格を引き上げても）、コミュニティフォークは動き続ける

MIT が与えないもの：

推論計算の無料ランチ。総 753B パラメータ（HF の model card による）では、フル精度の本番スループットはまだ 8x H100 圏内で、量子化品質への依存度が高いままです
将来のモデル更新 ― MIT リリースは時点的なものです。GLM 5.3 が公開されるかは未定
Anthropic 水準の safety tuning ― Z.ai の RLHF は独自スタイルで、refusal boundary は異なります

ほとんどのチームの現実的な道：今後 30〜60 日はホスト型 Coding Plan に留まり、コミュニティが 4-bit と 2-bit 変種に量子化するのを観察し、シングルノード構成が現れた時点で self-host を再評価する。

代替案：ofox 上のマネージドオープンウェイトコーディングモデル

GLM 5.2 の重み公開を待たず、H100 クラスタを自前構築せず、マネージドな中国系コーディングモデルを単一の OpenAI 互換 endpoint で使いたいなら、2026 年 6 月 15 日時点で ofox は 3 つの確かな代替案を提供しています：

モデル	ofox API ID	強み	GLM 5.2 より選ぶべきとき
DeepSeek V4 Pro	`deepseek/deepseek-v4-pro`	コーディング調整のフラッグシップ、コミュニティ実績が広い	公開ベンチマークのあるモデルが欲しい（DeepSeek は公開済み、GLM 5.2 はまだ）
Qwen3 Coder Next	`bailian/qwen3-coder-next`	Alibaba の最新コーディング特化ティア、多言語コード	多言語の中国語/日本語コードベースに出荷していて、純正 Qwen サポートが欲しい
Kimi K2.6	`moonshotai/kimi-k2.6`	長コンテキストと強い recall	「主張のみで未ベンチマーク」ではなく、検証済みの長コンテキストが必要

どれも GLM 5.2 と同じ構成形で繋ぎ込めます ― base URL と model ID を入れ替えるだけです：

# Cline / OpenCode の構成は同じ、upstream だけ変更
export OPENAI_BASE_URL="https://api.ofox.io/v1"
export OPENAI_MODEL="deepseek/deepseek-v4-pro"

これが単一 endpoint パターンです：ひとつの key、複数のモデル、ベンダーごとのサインアップ不要。現行の価格と機能フラグは ofox モデルカタログを参照してください。GLM 5.2 が ofox に上がったとき（まだです ― 2026 年 6 月 15 日に確認）、文字列を 1 つ変えるだけで切り替えられます。

Z.ai のステータスとクォータを監視する

最初の 1 週間で配線すべきものが 2 つあります：

Z.ai ステータスページ ― サインアップ当日にブックマーク。新製品の最初の 30 日は、rate-limit チューニングかクォータカウントのバグが少なくとも 1 件は必ず入ります
PR ごとの使用量計測 ― すべての API レスポンスの usage.total_tokens を既存の PR レベル telemetry（Datadog、Honeycomb、お好みで）にログ。コーディングエージェントは rabbit-hole なリファクタでクォータを燃やす方に流れがちで、それを捉えられるのは PR レベルだけです

参考情報源

Codersera：「GLM 5.2 Just Launched: 1M Context, Coding-First, Open Weights Next Week (Day-One Brief)」 ― https://codersera.com/blog/glm-5-2-release-1m-context-coding-2026/
AI Weekly：「Zhipu Deploys GLM 5.2 to All GLM Coding Plan Tiers With 1M-Token Context」 ― https://aiweekly.co/node/2946
Agent-Wars：「Zhipu ships GLM 5.2 with a 1M-token context and no benchmarks」 ― https://agent-wars.com/news/2026-06-14-glm-5-2-million-token-context
ofox モデルカタログスナップショット ― https://ofox.io/en/models
重み用 Hugging Face 組織 ― https://huggingface.co/zai-org （GLM-5.2 リポジトリは 2026 年 6 月 15 日時点で未公開）
Jie Tang on X ― 「GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone」 ― https://x.com/jietang/status/2065784751345287314 （2026 年 6 月 13 日。6 月 15 日時点で ~89.8 万閲覧）
Fortune：「A warning from Amazon led the White House to shut down Anthropic’s Mythos model」 ― https://fortune.com/2026/06/14/how-a-warning-from-amazon-led-the-white-house-to-shut-down-anthropics-mythos-model/
Semafor：「White House move to limit Anthropic linked to concerns about Chinese access to Mythos」 ― https://www.semafor.com/article/06/13/2026/white-house-move-to-limit-anthropic-linked-to-concerns-about-chinese-access-to-mythos
Tom’s Hardware：米政府が Anthropic に Fable 5 の jailbreak を警告 ― https://www.tomshardware.com/tech-industry/artificial-intelligence/trump-adviser-david-sacks-says-anthropic-refused-to-fix-fable-5-jailbreak-before-us-export-controls

このリリースを特別なものにしているのは 100 万トークンのコンテキストではありません ― Anthropic と Google はすでにそこに到達していました。GLM 5.2 は、重みを読み、MIT の下で学習ライセンスを監査し、自分のメタル上でフォークを走らせられる ― 移行中もホスト版のサブ秒応答を諦めずに ― 初めてのフロンティアクラスコーディングモデルだという点が違いです。今後 30 日で、ベンチマークがマーケティングを裏付けるかどうかが分かります。