开始时间: 2026-03-02
执行 Agent: Ai.Res (agent:researcher:main)
搜索覆盖:
- GLM-5 官方 arxiv 技术报告(2602.15763v1)、z.ai 官方定价页
- Qwen3.5 IT之家、量子位发布报道
- Kimi K2.5 官方 GitHub、官方博客、Moonshot API 定价页
- 阮一峰实测博文、Reddit LocalLLaMA 社区反馈、码力榜横评站
- 第三方 Benchmark 聚合(apiyi.com 对比)
调研时间:2026-03-02
重点模型:GLM-5(智谱 z.ai)/ Qwen3.5(阿里千问)/ Kimi K2.5(月之暗面 Moonshot AI)
| Benchmark | GLM-5 | Qwen3.5 | Kimi K2.5 |
|---|---|---|---|
| SWE-Bench Verified | ~75%(综合 8 benchmark 约 20% 超 GLM-4.7,与 Opus 4.5 持平) | 未单独公布 | 76.8% |
| SWE-Bench Multilingual | 参与评测,领先开源 | 未公布 | 73.0% |
| LiveCodeBench v6 | 参与(具体分未公布,≥GLM-4.7 显著) | 未公布(GPQA 88.4 间接反映推理力强) | 83.1%~85.0% |
| Terminal-Bench 2.0 | 参与 | 未公布 | 50.8% |
| LMArena Code Arena | 开源第一 | 未单独公布 | 开源前列 |
| MMLU-Pro | 未具体公布 | 87.8(超 GPT-5.2) | 未公布 |
| AIME 2025(数学) | 未公布 | 未公布 | 96.1 |
| IFBench(指令遵循) | 参与 | 76.5(榜单第一) | 未公布 |
| 前端代码生成 | ★★★★ | ★★★★ | ★★★★★(原生视觉编程) |
| 后端/系统工程 | ★★★★★(核心强项) | ★★★★ | ★★★★ |
社区实测(Reddit LocalLLaMA、阮一峰测评):
- GLM-5(vs Opus 4.6 vs GPT-5.3-Codex 实测 4 项任务):
- 网页设计:与 Opus 4.6 并列,GPT 最差
- 3D 沙盒:Opus 4.6 最佳,GLM-5 次之
- 愤怒小鸟:Opus 4.6 最佳,GLM-5 可玩,GPT 直接挂
- Laravel → Next.js:GLM-5 最快(5 分钟完成,无报错),体验最佳
- 总评:"国产开源版 Opus 4.6 平替,某些细节差距不是质的差别"
- Kimi K2.5(Reddit 社区):
- "对于大型 React 项目,精准度约 Sonnet 4.5 水平,明显优于 GLM-4.7"
- "视觉编程还原度超出预期,可直接上线"
- 缺点:响应速度慢(早期用户反馈);Coding Plan 按调用次数计费,重度用户性价比差
| 维度 | 评估 |
|---|---|
| ✅ 核心优势 | 系统工程能力强(后端/调试/重构);长程 Agent 稳定;LMArena Code 开源第一;国产芯片全适配;开源权重可自部署 |
| ✅ 生态 | z.ai Coding Plan 工具兼容性最广(20+ 工具);免费 MCP;GLM-5-Flash/Air 轻量版可用 |
| ❌ 短板 | 前端审美/动效不如 Kimi K2.5 精致;视觉原生能力弱于 Kimi K2.5;HLE 纯推理(不带工具)弱于 Qwen3.5/Kimi K2.5 |
| 维度 | 评估 |
|---|---|
| ✅ 核心优势 | 综合推理最强(MMLU-Pro、GPQA、IFBench 全线领先);原生多模态能力最系统;201 语言全覆盖;吞吐量高(19× Qwen3-Max);最便宜旗舰定价(¥0.8/M tokens) |
| ✅ 生态 | 开源可下载自部署(397B-A17B);魔搭社区 / HuggingFace 均可获取 |
| ❌ 短板 | Coding 专项 Benchmark 数据较少公布(SWE-bench 未有官方数据);Kimi Code CLI 类竞品工具较晚跟进;视频推理支持极长但实际 Agent 工具链不如 Kimi 完整 |
| 维度 | 评估 |
|---|---|
| ✅ 核心优势 | 视觉编程(图/视频→代码)最强;Agent Swarm 并发执行独特(100 子 Agent);HLE with tools 全球第一(50.2);Kimi Code CLI 即开即用;前端代码还原度极高 |
| ✅ 生态 | 原生 Kimi Code 工具链;API 成本低(输入 ¥0.7~4.0/M);开源权重(MoonshotAI/Kimi-K2.5 GitHub) |
| ❌ 短板 | 响应速度慢(早期用户实测);按调用次数计费导致 Agent 场景计费不合理;SWE-Bench Verified 76.8% 低于 Claude 4.5(80.9%);系统级后端工程能力弱于 GLM-5 |
| 模型 | 输入(缓存命中) | 输入(未命中) | 输出 | 上下文 | 来源 |
|---|---|---|---|---|---|
| GLM-5(z.ai 英文站,USD) | $0.20/M | $1.00/M | $3.20/M | 128K | docs.z.ai |
| GLM-5-Code(z.ai) | $0.30/M | $1.20/M | $5.00/M | 128K | docs.z.ai |
| GLM-4.7-Flash(z.ai) | Free | Free | Free | — | docs.z.ai |
| GLM-4.5-Flash(z.ai) | Free | Free | Free | — | docs.z.ai |
| Qwen3.5-Plus(阿里云百炼,人民币) | 未公布缓存 | ¥0.8/M | 未官方公布(~¥3/M 估算) | 128K→1M | 量子位报道 |
| Kimi K2.5(Moonshot,人民币) | ¥0.70/M | ¥4.00/M | ¥21.00/M | 256K | platform.moonshot.cn |
| Kimi K2(kimi-k2-0905) | ¥1.00/M | ¥4.00/M | ¥16.00/M | 256K | platform.moonshot.cn |
| Kimi K2 Turbo | ¥1.00/M | ¥8.00/M | ¥58.00/M | 256K | platform.moonshot.cn |
汇率换算参考(2026-03-02 约 7.2):GLM-5 输出 $3.2/M ≈ ¥23/M;Kimi K2.5 输出 ¥21/M 相近。
Qwen3.5-Plus ¥0.8/M 输入是最便宜旗舰,Gemini 3 Pro 的 1/18。
| 平台 | 入门价 | 核心模型 | 特色 |
|---|---|---|---|
| 智谱 GLM(z.ai) | ¥49/月 | GLM-5 + GLM-4.7 | 工具兼容最广(20+),免费 MCP |
| MiniMax | ¥29/月 | M2.5 | 按次计费,100+ TPS 高速 |
| 火山引擎方舟 | ¥40/月(¥8.91 首月) | Doubao-Seed-2.0-Code + Kimi-K2.5 + GLM-4.7 | 6 模型自由切换 |
| 阿里云百炼 | ¥40/月(¥7.9 首月) | Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5 | 千问全家桶,首月最低 |
| Kimi | ¥49/月 | Kimi K2.5 | 按调用次数(对 Agent 场景不划算) |
首��:阿里云百炼 Coding Plan ¥40/月(首月 ¥7.9)
理由:
1. ¥7.9 首月极低风险测试
2. 一个 Plan 里含 Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5,等于 4 个旗舰模型可切换
3. 1200 次/5h 配额,覆盖大多数 Agent Coding 场景
4. 模型全面:推理用 Qwen3.5、系统工程用 GLM-5、视觉编程用 Kimi K2.5
备选 A:智谱 z.ai Coding Plan ¥49/月(GLM-5 专攻后端工程)
- 工具兼容性最广(20+ IDE 工具),MCP 免费
- 适合主要用 Claude Code 风格 CLI 做复杂工程项目
备选 B:纯 API Pay-as-you-go(灵活度最高)
- GLM-5 API(z.ai):输入 $1/M 输出 $3.2/M,约 ¥7/M 和 ¥23/M
- Qwen3.5-Plus(阿里云百炼):¥0.8/M 输入,最性价比
- Kimi K2.5 API:¥4/M 输入 + ¥21/M 输出(视觉编程必用,其他场景可改用 Qwen3.5)
主要用途 → 推荐模型
─────────────────────────────────────
通用推理/长文/知识问答 → Qwen3.5-Plus(¥0.8/M 最便宜)
复杂系统工程/后端重构 → GLM-5(LMArena Code 开源第一)
前端/视觉编程/UI 还原 → Kimi K2.5(视觉编程无可替代)
日常快速对话 → GLM-4.7-Flash / GLM-4.5-Flash(免费)
| 来源 | 内容 |
|---|---|
| arxiv.org/abs/2602.15763 | GLM-5 官方技术报告 |
| docs.z.ai/guides/overview/pricing | GLM-5 系列官方定价(USD) |
| github.com/MoonshotAI/Kimi-K2.5 | Kimi K2.5 官方 GitHub + Benchmark 数据 |
| platform.moonshot.cn/docs/pricing/chat | Kimi API 官方人民币定价 |
| ithome.com/0/922/114.htm | Qwen3.5 IT之家发布报道 |
| qbitai.com/2026/02/380433.html | 量子位 Qwen3.5 定价报道(¥0.8/M 输入) |
| ruanyifeng.com/blog/2026/02/glm-5.html | 阮一峰 GLM-5 实测 vs Opus 4.6 |
| help.apiyi.com(Kimi K2.5 Coding Benchmark 对比) | 第三方 Benchmark 汇总 |
| coding.iamle.com | 国内 Coding Plan 横评 |
| reddit.com/r/LocalLLaMA | 社区用户真实评价 |
报告生成时间:2026-03-02 | 信息截止:2026-03-02