GLM-4.7-Flash 真的完全免费吗？

在 ofox 上调用 z-ai/glm-4.7-flash:free 这个 model ID，prompt 和 completion 的单价都是 0。Zhipu 官方目前对免费档限制并发为 1，付费的 FlashX 变体没有这个限制。

免费版和 GLM-5 / GLM-5.1 有什么差距？

GLM-4.7-Flash 是 30B-A3B MoE，3B 激活参数，定位轻量任务和 agentic coding；GLM-5 系列是旗舰款，参数量级和综合能力高一个量级，但要按 token 收费。简单分类、格式化、批量处理走免费版，重型编程任务走 GLM-5。

为什么国内访问 Zhipu 官方 API 还要走 ofox？

Zhipu 官方在国内本就能直连，但需要单独注册账号、单独管理 key。如果项目里已经在用 Claude / GPT / Gemini，多个 key 切换很碎；ofox 用一个 OpenAI 兼容 endpoint 把所有模型都聚合了，免费档的额度也合并算账。

GLM-4.7-Flash 能跑 OpenClaw 吗？

可以，模型本身是按 agentic coding 场景优化的，tool use 支持完整。配置时把 base_url 指向 ofox、model 填 z-ai/glm-4.7-flash:free 即可。但因为并发限制为 1，做长任务时 OpenClaw 内部并行调用会被节流，建议小项目或验证场景用。

GLM-4.7-Flash 免费 API 国内接入完全指南：200K 上下文、零成本调用（2026）

TL;DR — GLM-4.7-Flash 是智谱 2026-01-19 发布的 30B-A3B MoE 模型，200K 上下文窗口。ofox 上的 model ID 是 z-ai/glm-4.7-flash:free，prompt 和 completion 单价都是 0。国内开发者直接用 ofox 的 OpenAI 兼容 endpoint，3 行代码跑起来，不翻墙也不单独申请智谱账号。本文给接入步骤、SWE-bench 成绩、并发限制，以及和 GLM-5 / Kimi K2.5 的选型对照。

GLM-4.7-Flash 到底是什么

智谱（Z.ai）2026-01-19 发布了 GLM-4.7-Flash，主打”能跑在消费级硬件上的开源 SOTA 模型”。技术规格有几个数字值得记住：

30B 总参数 / 3B 激活参数（MoE 架构，每个 token 只激活一小部分专家）
200K context window（实际可用上下文窗口）
128K max completion tokens（单次输出上限）
SWE-bench Verified 59.2 分，在同体量开源模型里属于头部
τ²-Bench 79.5 分，工具调用基准
权重开源，Hugging Face 可下载，vLLM 和 Ollama 0.14.3 原生支持

“免费”这个卖点的具体形态：Zhipu 官方放出的 Free 档限并发 1，个人和小项目够用；要更高并发，付费的 GLM-4.7-FlashX 每百万 input token 大约 0.072 美元。

为什么有免费版？ Zhipu 用免费档做开发者引流，业务规模上来再切付费。和 OpenRouter、Cloudflare AI 的 freemium 玩法是一类，不是限时活动。长期接它没问题。

ofox 上的 GLM-4.7-Flash：model ID 和定价

ofox 把这款模型挂在 z-ai/glm-4.7-flash:free 这个 ID 下，从 ofox 的 /v1/models endpoint 能直接查到：

{
  "id": "z-ai/glm-4.7-flash:free",
  "name": "Z.ai: GLM-4.7-Flash (Free)",
  "context_length": 200000,
  "pricing": {
    "prompt": "0",
    "completion": "0",
    "web_search": "0.01"
  },
  "supported_parameters": [
    "temperature", "top_p", "max_tokens", "stop",
    "tools", "tool_choice", "response_format"
  ]
}

注意几点：

:free 后缀是 ofox 的固定命名规则，免费档的所有模型都带这个后缀
web search 工具调用是 0.01 美元 / 1000 次，文本生成本身是 0
supported_parameters 里没有 reasoning，所以不支持 thinking mode；要 reasoning 走 GLM-5

ofox 同系列还上架了 GLM-4.6、GLM-4.7、GLM-4.7-FlashX、GLM-5、GLM-5-Turbo、GLM-5.1、GLM-5V-Turbo，全是付费档。要做选型对照看本文末尾的表格。

5 分钟接入：从注册到第一次调用

第一步：拿 ofox API Key

去 ofox.ai 注册账号（手机号或邮箱都行），登录后在控制台的 “API Keys” 页面新建一个 key。复制下来设置成环境变量：

export OFOX_API_KEY="sk-ofox-xxxxxxxxxxxxxxxx"

第二步：用 OpenAI SDK 直接调用

ofox 走 OpenAI 协议，原版 SDK 改两行配置就能用：

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["OFOX_API_KEY"],
    base_url="https://api.ofox.ai/v1",
)

response = client.chat.completions.create(
    model="z-ai/glm-4.7-flash:free",
    messages=[
        {"role": "user", "content": "用 200 字解释 MoE 架构的优势"}
    ],
)
print(response.choices[0].message.content)

Node.js 版本：

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.OFOX_API_KEY,
  baseURL: 'https://api.ofox.ai/v1',
});

const resp = await client.chat.completions.create({
  model: 'z-ai/glm-4.7-flash:free',
  messages: [{ role: 'user', content: '用 JS 写个二分查找' }],
});
console.log(resp.choices[0].message.content);

第三步：curl 测试连通性

不想装 SDK，curl 一行也能验证：

curl https://api.ofox.ai/v1/chat/completions \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "z-ai/glm-4.7-flash:free",
    "messages": [{"role":"user","content":"hi"}]
  }'

返回 JSON 里看到 "choices" 数组即代表打通。整个流程不需要 VPN，国内任何机房都能直连。

实际限速：免费版能跑多大的量

文档上写”并发 1”，但实际开发里更关心 token 速率和单日总额度。我跑了一组实测：连续 1 小时、单线程发请求、平均输入 800 token 输出 1500 token，结果如下：

指标	实测结果
平均首 token 延迟	0.8 秒
平均输出速率	65 tokens/秒
1 小时连续请求	约 120 次 / 18 万 token 输出
遇到 429 限速	没有
平均请求间隔	30 秒（受并发=1 + 模型生成速度限制）

换算到日常：个人项目、code review 助手、批量翻译几百段文本，这个速率绰绰有余。要做高并发生产服务，该升 FlashX 升 FlashX，该上 GLM-5 上 GLM-5。

适合 GLM-4.7-Flash 免费版的场景

模型本身按 agentic coding 优化，但免费档的并发限制决定了它能干什么、不能干什么。

适合的场景：

个人项目、原型验证、Side project
异步批处理（日志分类、文章摘要、数据清洗）
学习用途，跑 prompt 实验、和其他模型做 A/B 对比
编辑器插件，VS Code 单用户场景
OpenClaw 单用户的日常 agent 任务，配置参考 OpenClaw 免费 token 攻略

别硬上的场景：

多用户在线服务（API 网关、SaaS 后台）
实时聊天产品，首 token 延迟和并发都是瓶颈
长链 agent 工作流，一个长任务会反复触发限流
需要 reasoning / thinking mode 的复杂推理，参数本身不支持

和 GLM 系列其他成员的差异

ofox 上架的 GLM 系列定价差异挺大，列张表方便对照：

模型 ID	定位	输入价（$/M token）	输出价（$/M token）	Context
`z-ai/glm-4.7-flash:free`	免费轻量	0	0	200K
`z-ai/glm-4.7-flashx`	付费快速版	0.072	0.43	200K
`z-ai/glm-4.7`	4.x 旗舰	0.40	2.00	200K
`z-ai/glm-5-turbo`	5.x 经济款	0.14	0.87	200K
`z-ai/glm-5`	5.x 完整版	0.35	1.74	200K
`z-ai/glm-5.1`	5.x 最新版	0.14	0.87	200K

简单的选型经验：

预算为零 + 单用户 → :free
需要稳定速率但还想省钱 → FlashX
跑 OpenClaw / Agent 工作流 → GLM-5-Turbo 或 GLM-5.1，输入 $0.14/M、输出 $0.87/M，性价比最高
大型系统编程、长链推理 → GLM-5 完整版或 GLM-4.7 旗舰款，规模更大但单价也更高

GLM-5 的具体用法看 GLM-5 API 接入完全指南。视觉多模态看 GLM-5V-Turbo 多模态视觉 API 教程。

和 Kimi / MiniMax 免费档对比

国产模型有像样免费档的主要就这三家：Zhipu、Moonshot Kimi、MiniMax。策略差别不小：

平台	免费方式	单次上下文	并发	是否长期免费
GLM-4.7-Flash:free	完全免费	200K	1	是
Kimi K2.5	注册赠送 token 包	256K	5	否，用完即止
MiniMax M2.7	部分场景免费	205K	3	仅限部分模型

详细实测对比看 Kimi / MiniMax 免费额度实测。粗暴版结论：长期零成本选 GLM，短期要吞吐和更大上下文选 Kimi，需要自我进化能力或多模态选 MiniMax。

常见问题排查

1. 报 401 Unauthorized

99% 是 API Key 错了或者没在 header 里加 Bearer 前缀。检查 Authorization: Bearer sk-xxx。完整错误码对照看 Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册。

2. 模型名写错

最常见是漏了 :free 后缀，写成 z-ai/glm-4.7-flash 就会变成付费查找，找不到对应付费款会返回 404。完整 model ID 是 z-ai/glm-4.7-flash:free。

3. 想用 stream 流式输出

加 stream=True 参数即可，OpenAI SDK 标准用法：

stream = client.chat.completions.create(
    model="z-ai/glm-4.7-flash:free",
    messages=[{"role": "user", "content": "写首五言绝句"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="", flush=True)

4. tool use / function calling 不工作

GLM-4.7-Flash 支持 tools 和 tool_choice，但写法要严格按 OpenAI Function Calling 规范。如果模型不返回 tool_calls 字段，检查你的 tool schema 是不是少了 function.parameters 必填字段。

5. 想做 OpenClaw 集成

把 ~/.openclaw/config.json 里的 base_url 改成 https://api.ofox.ai/v1，model 字段填 z-ai/glm-4.7-flash:free，重启即可。详细步骤参考 OpenClaw 初始化配置完全指南。

写在最后

GLM-4.7-Flash 免费版的真实定位，是国产开源 30B 模型里第一个把”免费”做成长期产品的。对个人开发者、学生、小团队的原型阶段，它能扛主要工作量，不用每个月对账。

国内开发者走 ofox 接入，省掉单独注册智谱账号、单独维护 key 的麻烦，OpenAI SDK 一行 base_url 改写就能跑。

要不要把付费的 Claude / GPT 切到免费的 GLM？看业务对模型质量的容忍度。简单分类、批量摘要、code review 助手类任务，免费版的能力够用；复杂推理、长链 agent、生产环境的 SLA 要求，该花的钱还是要花。

参考资料：