GLM-4.7-Flash 免费 API 国内接入完全指南:200K 上下文、零成本调用(2026)

GLM-4.7-Flash 免费 API 国内接入完全指南:200K 上下文、零成本调用(2026)

TL;DR — GLM-4.7-Flash 是智谱 2026-01-19 发布的 30B-A3B MoE 模型,200K 上下文窗口。ofox 上的 model ID 是 z-ai/glm-4.7-flash:free,prompt 和 completion 单价都是 0。国内开发者直接用 ofox 的 OpenAI 兼容 endpoint,3 行代码跑起来,不翻墙也不单独申请智谱账号。本文给接入步骤、SWE-bench 成绩、并发限制,以及和 GLM-5 / Kimi K2.5 的选型对照。

GLM-4.7-Flash 到底是什么

智谱(Z.ai)2026-01-19 发布了 GLM-4.7-Flash,主打”能跑在消费级硬件上的开源 SOTA 模型”。技术规格有几个数字值得记住:

  • 30B 总参数 / 3B 激活参数(MoE 架构,每个 token 只激活一小部分专家)
  • 200K context window(实际可用上下文窗口)
  • 128K max completion tokens(单次输出上限)
  • SWE-bench Verified 59.2 分,在同体量开源模型里属于头部
  • τ²-Bench 79.5 分,工具调用基准
  • 权重开源,Hugging Face 可下载,vLLM 和 Ollama 0.14.3 原生支持

“免费”这个卖点的具体形态:Zhipu 官方放出的 Free 档限并发 1,个人和小项目够用;要更高并发,付费的 GLM-4.7-FlashX 每百万 input token 大约 0.072 美元。

为什么有免费版? Zhipu 用免费档做开发者引流,业务规模上来再切付费。和 OpenRouter、Cloudflare AI 的 freemium 玩法是一类,不是限时活动。长期接它没问题。

ofox 上的 GLM-4.7-Flash:model ID 和定价

ofox 把这款模型挂在 z-ai/glm-4.7-flash:free 这个 ID 下,从 ofox 的 /v1/models endpoint 能直接查到:

{
  "id": "z-ai/glm-4.7-flash:free",
  "name": "Z.ai: GLM-4.7-Flash (Free)",
  "context_length": 200000,
  "pricing": {
    "prompt": "0",
    "completion": "0",
    "web_search": "0.01"
  },
  "supported_parameters": [
    "temperature", "top_p", "max_tokens", "stop",
    "tools", "tool_choice", "response_format"
  ]
}

注意几点:

  • :free 后缀是 ofox 的固定命名规则,免费档的所有模型都带这个后缀
  • web search 工具调用是 0.01 美元 / 1000 次,文本生成本身是 0
  • supported_parameters 里没有 reasoning,所以不支持 thinking mode;要 reasoning 走 GLM-5

ofox 同系列还上架了 GLM-4.6、GLM-4.7、GLM-4.7-FlashX、GLM-5、GLM-5-Turbo、GLM-5.1、GLM-5V-Turbo,全是付费档。要做选型对照看本文末尾的表格。

5 分钟接入:从注册到第一次调用

第一步:拿 ofox API Key

ofox.ai 注册账号(手机号或邮箱都行),登录后在控制台的 “API Keys” 页面新建一个 key。复制下来设置成环境变量:

export OFOX_API_KEY="sk-ofox-xxxxxxxxxxxxxxxx"

第二步:用 OpenAI SDK 直接调用

ofox 走 OpenAI 协议,原版 SDK 改两行配置就能用:

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["OFOX_API_KEY"],
    base_url="https://api.ofox.ai/v1",
)

response = client.chat.completions.create(
    model="z-ai/glm-4.7-flash:free",
    messages=[
        {"role": "user", "content": "用 200 字解释 MoE 架构的优势"}
    ],
)
print(response.choices[0].message.content)

Node.js 版本:

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.OFOX_API_KEY,
  baseURL: 'https://api.ofox.ai/v1',
});

const resp = await client.chat.completions.create({
  model: 'z-ai/glm-4.7-flash:free',
  messages: [{ role: 'user', content: '用 JS 写个二分查找' }],
});
console.log(resp.choices[0].message.content);

第三步:curl 测试连通性

不想装 SDK,curl 一行也能验证:

curl https://api.ofox.ai/v1/chat/completions \
  -H "Authorization: Bearer $OFOX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "z-ai/glm-4.7-flash:free",
    "messages": [{"role":"user","content":"hi"}]
  }'

返回 JSON 里看到 "choices" 数组即代表打通。整个流程不需要 VPN,国内任何机房都能直连。

实际限速:免费版能跑多大的量

文档上写”并发 1”,但实际开发里更关心 token 速率和单日总额度。我跑了一组实测:连续 1 小时、单线程发请求、平均输入 800 token 输出 1500 token,结果如下:

指标实测结果
平均首 token 延迟0.8 秒
平均输出速率65 tokens/秒
1 小时连续请求约 120 次 / 18 万 token 输出
遇到 429 限速没有
平均请求间隔30 秒(受并发=1 + 模型生成速度限制)

换算到日常:个人项目、code review 助手、批量翻译几百段文本,这个速率绰绰有余。要做高并发生产服务,该升 FlashX 升 FlashX,该上 GLM-5 上 GLM-5。

适合 GLM-4.7-Flash 免费版的场景

模型本身按 agentic coding 优化,但免费档的并发限制决定了它能干什么、不能干什么。

适合的场景:

  • 个人项目、原型验证、Side project
  • 异步批处理(日志分类、文章摘要、数据清洗)
  • 学习用途,跑 prompt 实验、和其他模型做 A/B 对比
  • 编辑器插件,VS Code 单用户场景
  • OpenClaw 单用户的日常 agent 任务,配置参考 OpenClaw 免费 token 攻略

别硬上的场景:

  • 多用户在线服务(API 网关、SaaS 后台)
  • 实时聊天产品,首 token 延迟和并发都是瓶颈
  • 长链 agent 工作流,一个长任务会反复触发限流
  • 需要 reasoning / thinking mode 的复杂推理,参数本身不支持

和 GLM 系列其他成员的差异

ofox 上架的 GLM 系列定价差异挺大,列张表方便对照:

模型 ID定位输入价($/M token)输出价($/M token)Context
z-ai/glm-4.7-flash:free免费轻量00200K
z-ai/glm-4.7-flashx付费快速版0.0720.43200K
z-ai/glm-4.74.x 旗舰0.402.00200K
z-ai/glm-5-turbo5.x 经济款0.140.87200K
z-ai/glm-55.x 完整版0.351.74200K
z-ai/glm-5.15.x 最新版0.140.87200K

简单的选型经验:

  • 预算为零 + 单用户 → :free
  • 需要稳定速率但还想省钱 → FlashX
  • 跑 OpenClaw / Agent 工作流 → GLM-5-Turbo 或 GLM-5.1,输入 $0.14/M、输出 $0.87/M,性价比最高
  • 大型系统编程、长链推理 → GLM-5 完整版或 GLM-4.7 旗舰款,规模更大但单价也更高

GLM-5 的具体用法看 GLM-5 API 接入完全指南。视觉多模态看 GLM-5V-Turbo 多模态视觉 API 教程

和 Kimi / MiniMax 免费档对比

国产模型有像样免费档的主要就这三家:Zhipu、Moonshot Kimi、MiniMax。策略差别不小:

平台免费方式单次上下文并发是否长期免费
GLM-4.7-Flash:free完全免费200K1
Kimi K2.5注册赠送 token 包256K5否,用完即止
MiniMax M2.7部分场景免费205K3仅限部分模型

详细实测对比看 Kimi / MiniMax 免费额度实测。粗暴版结论:长期零成本选 GLM,短期要吞吐和更大上下文选 Kimi,需要自我进化能力或多模态选 MiniMax。

常见问题排查

1. 报 401 Unauthorized

99% 是 API Key 错了或者没在 header 里加 Bearer 前缀。检查 Authorization: Bearer sk-xxx。完整错误码对照看 Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册

2. 模型名写错

最常见是漏了 :free 后缀,写成 z-ai/glm-4.7-flash 就会变成付费查找,找不到对应付费款会返回 404。完整 model ID 是 z-ai/glm-4.7-flash:free

3. 想用 stream 流式输出

stream=True 参数即可,OpenAI SDK 标准用法:

stream = client.chat.completions.create(
    model="z-ai/glm-4.7-flash:free",
    messages=[{"role": "user", "content": "写首五言绝句"}],
    stream=True,
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="", flush=True)

4. tool use / function calling 不工作

GLM-4.7-Flash 支持 toolstool_choice,但写法要严格按 OpenAI Function Calling 规范。如果模型不返回 tool_calls 字段,检查你的 tool schema 是不是少了 function.parameters 必填字段。

5. 想做 OpenClaw 集成

~/.openclaw/config.json 里的 base_url 改成 https://api.ofox.ai/v1model 字段填 z-ai/glm-4.7-flash:free,重启即可。详细步骤参考 OpenClaw 初始化配置完全指南

写在最后

GLM-4.7-Flash 免费版的真实定位,是国产开源 30B 模型里第一个把”免费”做成长期产品的。对个人开发者、学生、小团队的原型阶段,它能扛主要工作量,不用每个月对账。

国内开发者走 ofox 接入,省掉单独注册智谱账号、单独维护 key 的麻烦,OpenAI SDK 一行 base_url 改写就能跑。

要不要把付费的 Claude / GPT 切到免费的 GLM?看业务对模型质量的容忍度。简单分类、批量摘要、code review 助手类任务,免费版的能力够用;复杂推理、长链 agent、生产环境的 SLA 要求,该花的钱还是要花。


参考资料