GLM-4.7-Flash 免费 API 国内接入完全指南:200K 上下文、零成本调用(2026)
TL;DR — GLM-4.7-Flash 是智谱 2026-01-19 发布的 30B-A3B MoE 模型,200K 上下文窗口。ofox 上的 model ID 是 z-ai/glm-4.7-flash:free,prompt 和 completion 单价都是 0。国内开发者直接用 ofox 的 OpenAI 兼容 endpoint,3 行代码跑起来,不翻墙也不单独申请智谱账号。本文给接入步骤、SWE-bench 成绩、并发限制,以及和 GLM-5 / Kimi K2.5 的选型对照。
GLM-4.7-Flash 到底是什么
智谱(Z.ai)2026-01-19 发布了 GLM-4.7-Flash,主打”能跑在消费级硬件上的开源 SOTA 模型”。技术规格有几个数字值得记住:
- 30B 总参数 / 3B 激活参数(MoE 架构,每个 token 只激活一小部分专家)
- 200K context window(实际可用上下文窗口)
- 128K max completion tokens(单次输出上限)
- SWE-bench Verified 59.2 分,在同体量开源模型里属于头部
- τ²-Bench 79.5 分,工具调用基准
- 权重开源,Hugging Face 可下载,vLLM 和 Ollama 0.14.3 原生支持
“免费”这个卖点的具体形态:Zhipu 官方放出的 Free 档限并发 1,个人和小项目够用;要更高并发,付费的 GLM-4.7-FlashX 每百万 input token 大约 0.072 美元。
为什么有免费版? Zhipu 用免费档做开发者引流,业务规模上来再切付费。和 OpenRouter、Cloudflare AI 的 freemium 玩法是一类,不是限时活动。长期接它没问题。
ofox 上的 GLM-4.7-Flash:model ID 和定价
ofox 把这款模型挂在 z-ai/glm-4.7-flash:free 这个 ID 下,从 ofox 的 /v1/models endpoint 能直接查到:
{
"id": "z-ai/glm-4.7-flash:free",
"name": "Z.ai: GLM-4.7-Flash (Free)",
"context_length": 200000,
"pricing": {
"prompt": "0",
"completion": "0",
"web_search": "0.01"
},
"supported_parameters": [
"temperature", "top_p", "max_tokens", "stop",
"tools", "tool_choice", "response_format"
]
}
注意几点:
:free后缀是 ofox 的固定命名规则,免费档的所有模型都带这个后缀- web search 工具调用是 0.01 美元 / 1000 次,文本生成本身是 0
- supported_parameters 里没有
reasoning,所以不支持 thinking mode;要 reasoning 走 GLM-5
ofox 同系列还上架了 GLM-4.6、GLM-4.7、GLM-4.7-FlashX、GLM-5、GLM-5-Turbo、GLM-5.1、GLM-5V-Turbo,全是付费档。要做选型对照看本文末尾的表格。
5 分钟接入:从注册到第一次调用
第一步:拿 ofox API Key
去 ofox.ai 注册账号(手机号或邮箱都行),登录后在控制台的 “API Keys” 页面新建一个 key。复制下来设置成环境变量:
export OFOX_API_KEY="sk-ofox-xxxxxxxxxxxxxxxx"
第二步:用 OpenAI SDK 直接调用
ofox 走 OpenAI 协议,原版 SDK 改两行配置就能用:
from openai import OpenAI
client = OpenAI(
api_key=os.environ["OFOX_API_KEY"],
base_url="https://api.ofox.ai/v1",
)
response = client.chat.completions.create(
model="z-ai/glm-4.7-flash:free",
messages=[
{"role": "user", "content": "用 200 字解释 MoE 架构的优势"}
],
)
print(response.choices[0].message.content)
Node.js 版本:
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: process.env.OFOX_API_KEY,
baseURL: 'https://api.ofox.ai/v1',
});
const resp = await client.chat.completions.create({
model: 'z-ai/glm-4.7-flash:free',
messages: [{ role: 'user', content: '用 JS 写个二分查找' }],
});
console.log(resp.choices[0].message.content);
第三步:curl 测试连通性
不想装 SDK,curl 一行也能验证:
curl https://api.ofox.ai/v1/chat/completions \
-H "Authorization: Bearer $OFOX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "z-ai/glm-4.7-flash:free",
"messages": [{"role":"user","content":"hi"}]
}'
返回 JSON 里看到 "choices" 数组即代表打通。整个流程不需要 VPN,国内任何机房都能直连。
实际限速:免费版能跑多大的量
文档上写”并发 1”,但实际开发里更关心 token 速率和单日总额度。我跑了一组实测:连续 1 小时、单线程发请求、平均输入 800 token 输出 1500 token,结果如下:
| 指标 | 实测结果 |
|---|---|
| 平均首 token 延迟 | 0.8 秒 |
| 平均输出速率 | 65 tokens/秒 |
| 1 小时连续请求 | 约 120 次 / 18 万 token 输出 |
| 遇到 429 限速 | 没有 |
| 平均请求间隔 | 30 秒(受并发=1 + 模型生成速度限制) |
换算到日常:个人项目、code review 助手、批量翻译几百段文本,这个速率绰绰有余。要做高并发生产服务,该升 FlashX 升 FlashX,该上 GLM-5 上 GLM-5。
适合 GLM-4.7-Flash 免费版的场景
模型本身按 agentic coding 优化,但免费档的并发限制决定了它能干什么、不能干什么。
适合的场景:
- 个人项目、原型验证、Side project
- 异步批处理(日志分类、文章摘要、数据清洗)
- 学习用途,跑 prompt 实验、和其他模型做 A/B 对比
- 编辑器插件,VS Code 单用户场景
- OpenClaw 单用户的日常 agent 任务,配置参考 OpenClaw 免费 token 攻略
别硬上的场景:
- 多用户在线服务(API 网关、SaaS 后台)
- 实时聊天产品,首 token 延迟和并发都是瓶颈
- 长链 agent 工作流,一个长任务会反复触发限流
- 需要 reasoning / thinking mode 的复杂推理,参数本身不支持
和 GLM 系列其他成员的差异
ofox 上架的 GLM 系列定价差异挺大,列张表方便对照:
| 模型 ID | 定位 | 输入价($/M token) | 输出价($/M token) | Context |
|---|---|---|---|---|
z-ai/glm-4.7-flash:free | 免费轻量 | 0 | 0 | 200K |
z-ai/glm-4.7-flashx | 付费快速版 | 0.072 | 0.43 | 200K |
z-ai/glm-4.7 | 4.x 旗舰 | 0.40 | 2.00 | 200K |
z-ai/glm-5-turbo | 5.x 经济款 | 0.14 | 0.87 | 200K |
z-ai/glm-5 | 5.x 完整版 | 0.35 | 1.74 | 200K |
z-ai/glm-5.1 | 5.x 最新版 | 0.14 | 0.87 | 200K |
简单的选型经验:
- 预算为零 + 单用户 →
:free - 需要稳定速率但还想省钱 → FlashX
- 跑 OpenClaw / Agent 工作流 → GLM-5-Turbo 或 GLM-5.1,输入 $0.14/M、输出 $0.87/M,性价比最高
- 大型系统编程、长链推理 → GLM-5 完整版或 GLM-4.7 旗舰款,规模更大但单价也更高
GLM-5 的具体用法看 GLM-5 API 接入完全指南。视觉多模态看 GLM-5V-Turbo 多模态视觉 API 教程。
和 Kimi / MiniMax 免费档对比
国产模型有像样免费档的主要就这三家:Zhipu、Moonshot Kimi、MiniMax。策略差别不小:
| 平台 | 免费方式 | 单次上下文 | 并发 | 是否长期免费 |
|---|---|---|---|---|
| GLM-4.7-Flash:free | 完全免费 | 200K | 1 | 是 |
| Kimi K2.5 | 注册赠送 token 包 | 256K | 5 | 否,用完即止 |
| MiniMax M2.7 | 部分场景免费 | 205K | 3 | 仅限部分模型 |
详细实测对比看 Kimi / MiniMax 免费额度实测。粗暴版结论:长期零成本选 GLM,短期要吞吐和更大上下文选 Kimi,需要自我进化能力或多模态选 MiniMax。
常见问题排查
1. 报 401 Unauthorized
99% 是 API Key 错了或者没在 header 里加 Bearer 前缀。检查 Authorization: Bearer sk-xxx。完整错误码对照看 Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册。
2. 模型名写错
最常见是漏了 :free 后缀,写成 z-ai/glm-4.7-flash 就会变成付费查找,找不到对应付费款会返回 404。完整 model ID 是 z-ai/glm-4.7-flash:free。
3. 想用 stream 流式输出
加 stream=True 参数即可,OpenAI SDK 标准用法:
stream = client.chat.completions.create(
model="z-ai/glm-4.7-flash:free",
messages=[{"role": "user", "content": "写首五言绝句"}],
stream=True,
)
for chunk in stream:
print(chunk.choices[0].delta.content or "", end="", flush=True)
4. tool use / function calling 不工作
GLM-4.7-Flash 支持 tools 和 tool_choice,但写法要严格按 OpenAI Function Calling 规范。如果模型不返回 tool_calls 字段,检查你的 tool schema 是不是少了 function.parameters 必填字段。
5. 想做 OpenClaw 集成
把 ~/.openclaw/config.json 里的 base_url 改成 https://api.ofox.ai/v1,model 字段填 z-ai/glm-4.7-flash:free,重启即可。详细步骤参考 OpenClaw 初始化配置完全指南。
写在最后
GLM-4.7-Flash 免费版的真实定位,是国产开源 30B 模型里第一个把”免费”做成长期产品的。对个人开发者、学生、小团队的原型阶段,它能扛主要工作量,不用每个月对账。
国内开发者走 ofox 接入,省掉单独注册智谱账号、单独维护 key 的麻烦,OpenAI SDK 一行 base_url 改写就能跑。
要不要把付费的 Claude / GPT 切到免费的 GLM?看业务对模型质量的容忍度。简单分类、批量摘要、code review 助手类任务,免费版的能力够用;复杂推理、长链 agent、生产环境的 SLA 要求,该花的钱还是要花。
参考资料:


