任务 ID: task-model-research-40164  |  文件: session.md  |  最后修改: 2026-03-02 20:08:33

Session Log — task-model-research-40164 国产大模型调研

开始时间: 2026-03-02
执行 Agent: Ai.Res (agent:researcher:main)


执行过程摘要

搜索覆盖:
- GLM-5 官方 arxiv 技术报告(2602.15763v1)、z.ai 官方定价页
- Qwen3.5 IT之家、量子位发布报道
- Kimi K2.5 官方 GitHub、官方博客、Moonshot API 定价页
- 阮一峰实测博文、Reddit LocalLLaMA 社区反馈、码力榜横评站
- 第三方 Benchmark 聚合(apiyi.com 对比)


国产主流大模型综合调研报告

调研时间:2026-03-02
重点模型:GLM-5(智谱 z.ai)/ Qwen3.5(阿里千问)/ Kimi K2.5(月之暗面 Moonshot AI)


一、能力综合概览

1.1 GLM-5(智谱 AI / z.ai)


1.2 Qwen3.5(阿里云 千问)


1.3 Kimi K2.5(月之暗面 Moonshot AI)


二、Coding 能力专项

Benchmark GLM-5 Qwen3.5 Kimi K2.5
SWE-Bench Verified ~75%(综合 8 benchmark 约 20% 超 GLM-4.7,与 Opus 4.5 持平) 未单独公布 76.8%
SWE-Bench Multilingual 参与评测,领先开源 未公布 73.0%
LiveCodeBench v6 参与(具体分未公布,≥GLM-4.7 显著) 未公布(GPQA 88.4 间接反映推理力强) 83.1%~85.0%
Terminal-Bench 2.0 参与 未公布 50.8%
LMArena Code Arena 开源第一 未单独公布 开源前列
MMLU-Pro 未具体公布 87.8(超 GPT-5.2) 未公布
AIME 2025(数学) 未公布 未公布 96.1
IFBench(指令遵循) 参与 76.5(榜单第一) 未公布
前端代码生成 ★★★★ ★★★★ ★★★★★(原生视觉编程)
后端/系统工程 ★★★★★(核心强项) ★★★★ ★★★★

社区实测(Reddit LocalLLaMA、阮一峰测评):
- GLM-5(vs Opus 4.6 vs GPT-5.3-Codex 实测 4 项任务):
- 网页设计:与 Opus 4.6 并列,GPT 最差
- 3D 沙盒:Opus 4.6 最佳,GLM-5 次之
- 愤怒小鸟:Opus 4.6 最佳,GLM-5 可玩,GPT 直接挂
- Laravel → Next.js:GLM-5 最快(5 分钟完成,无报错),体验最佳
- 总评:"国产开源版 Opus 4.6 平替,某些细节差距不是质的差别"
- Kimi K2.5(Reddit 社区):
- "对于大型 React 项目,精准度约 Sonnet 4.5 水平,明显优于 GLM-4.7"
- "视觉编程还原度超出预期,可直接上线"
- 缺点:响应速度慢(早期用户反馈);Coding Plan 按调用次数计费,重度用户性价比差


三、优劣势分析

GLM-5

维度 评估
✅ 核心优势 系统工程能力强(后端/调试/重构);长程 Agent 稳定;LMArena Code 开源第一;国产芯片全适配;开源权重可自部署
✅ 生态 z.ai Coding Plan 工具兼容性最广(20+ 工具);免费 MCP;GLM-5-Flash/Air 轻量版可用
❌ 短板 前端审美/动效不如 Kimi K2.5 精致;视觉原生能力弱于 Kimi K2.5;HLE 纯推理(不带工具)弱于 Qwen3.5/Kimi K2.5

Qwen3.5-Plus / Qwen3.5-397B

维度 评估
✅ 核心优势 综合推理最强(MMLU-Pro、GPQA、IFBench 全线领先);原生多模态能力最系统;201 语言全覆盖;吞吐量高(19× Qwen3-Max);最便宜旗舰定价(¥0.8/M tokens)
✅ 生态 开源可下载自部署(397B-A17B);魔搭社区 / HuggingFace 均可获取
❌ 短板 Coding 专项 Benchmark 数据较少公布(SWE-bench 未有官方数据);Kimi Code CLI 类竞品工具较晚跟进;视频推理支持极长但实际 Agent 工具链不如 Kimi 完整

Kimi K2.5

维度 评估
✅ 核心优势 视觉编程(图/视频→代码)最强;Agent Swarm 并发执行独特(100 子 Agent);HLE with tools 全球第一(50.2);Kimi Code CLI 即开即用;前端代码还原度极高
✅ 生态 原生 Kimi Code 工具链;API 成本低(输入 ¥0.7~4.0/M);开源权重(MoonshotAI/Kimi-K2.5 GitHub)
❌ 短板 响应速度慢(早期用户实测);按调用次数计费导致 Agent 场景计费不合理;SWE-Bench Verified 76.8% 低于 Claude 4.5(80.9%);系统级后端工程能力弱于 GLM-5

四、价格与性价比

API 定价对比

模型 输入(缓存命中) 输入(未命中) 输出 上下文 来源
GLM-5(z.ai 英文站,USD) $0.20/M $1.00/M $3.20/M 128K docs.z.ai
GLM-5-Code(z.ai) $0.30/M $1.20/M $5.00/M 128K docs.z.ai
GLM-4.7-Flash(z.ai) Free Free Free docs.z.ai
GLM-4.5-Flash(z.ai) Free Free Free docs.z.ai
Qwen3.5-Plus(阿里云百炼,人民币) 未公布缓存 ¥0.8/M 未官方公布(~¥3/M 估算) 128K→1M 量子位报道
Kimi K2.5(Moonshot,人民币) ¥0.70/M ¥4.00/M ¥21.00/M 256K platform.moonshot.cn
Kimi K2(kimi-k2-0905) ¥1.00/M ¥4.00/M ¥16.00/M 256K platform.moonshot.cn
Kimi K2 Turbo ¥1.00/M ¥8.00/M ¥58.00/M 256K platform.moonshot.cn

汇率换算参考(2026-03-02 约 7.2):GLM-5 输出 $3.2/M ≈ ¥23/M;Kimi K2.5 输出 ¥21/M 相近。
Qwen3.5-Plus ¥0.8/M 输入是最便宜旗舰,Gemini 3 Pro 的 1/18。

Coding Plan 月订阅(适合高频开发者)

平台 入门价 核心模型 特色
智谱 GLM(z.ai) ¥49/月 GLM-5 + GLM-4.7 工具兼容最广(20+),免费 MCP
MiniMax ¥29/月 M2.5 按次计费,100+ TPS 高速
火山引擎方舟 ¥40/月(¥8.91 首月) Doubao-Seed-2.0-Code + Kimi-K2.5 + GLM-4.7 6 模型自由切换
阿里云百炼 ¥40/月(¥7.9 首月) Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5 千问全家桶,首月最低
Kimi ¥49/月 Kimi K2.5 按调用次数(对 Agent 场景不划算)

五、购买建议(从"给爱衣当备用模型"视角)

🎯 需求分析

🏆 推荐方案

首��:阿里云百炼 Coding Plan ¥40/月(首月 ¥7.9)

理由:
1. ¥7.9 首月极低风险测试
2. 一个 Plan 里含 Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5,等于 4 个旗舰模型可切换
3. 1200 次/5h 配额,覆盖大多数 Agent Coding 场景
4. 模型全面:推理用 Qwen3.5、系统工程用 GLM-5、视觉编程用 Kimi K2.5

备选 A:智谱 z.ai Coding Plan ¥49/月(GLM-5 专攻后端工程)
- 工具兼容性最广(20+ IDE 工具),MCP 免费
- 适合主要用 Claude Code 风格 CLI 做复杂工程项目

备选 B:纯 API Pay-as-you-go(灵活度最高)
- GLM-5 API(z.ai):输入 $1/M 输出 $3.2/M,约 ¥7/M 和 ¥23/M
- Qwen3.5-Plus(阿里云百炼):¥0.8/M 输入,最性价比
- Kimi K2.5 API:¥4/M 输入 + ¥21/M 输出(视觉编程必用,其他场景可改用 Qwen3.5)

🔑 具体配置建议

主要用途 → 推荐模型
─────────────────────────────────────
通用推理/长文/知识问答 → Qwen3.5-Plus(¥0.8/M 最便宜)
复杂系统工程/后端重构  → GLM-5(LMArena Code 开源第一)
前端/视觉编程/UI 还原  → Kimi K2.5(视觉编程无可替代)
日常快速对话           → GLM-4.7-Flash / GLM-4.5-Flash(免费)

⚠️ 注意事项

  1. Kimi K2.5 响应速度:早期用户反馈偏慢,重度使用前建议先测速
  2. Kimi Coding Plan 计费:按调用次数(非 Token),Agent 每次读文件都计 1 次,重度 Agent 场景容易耗尽额度
  3. GLM-5 vs Qwen3.5 中文写作:两者中文均很好,但 Qwen3.5 IFBench 指令遵循更强,长文创作建议用 Qwen3.5
  4. OpenRouter 兜底:三家 API 均可通过 OpenRouter 访问,但价格会加价约 15-20%

六、信息来源

来源 内容
arxiv.org/abs/2602.15763 GLM-5 官方技术报告
docs.z.ai/guides/overview/pricing GLM-5 系列官方定价(USD)
github.com/MoonshotAI/Kimi-K2.5 Kimi K2.5 官方 GitHub + Benchmark 数据
platform.moonshot.cn/docs/pricing/chat Kimi API 官方人民币定价
ithome.com/0/922/114.htm Qwen3.5 IT之家发布报道
qbitai.com/2026/02/380433.html 量子位 Qwen3.5 定价报道(¥0.8/M 输入)
ruanyifeng.com/blog/2026/02/glm-5.html 阮一峰 GLM-5 实测 vs Opus 4.6
help.apiyi.com(Kimi K2.5 Coding Benchmark 对比) 第三方 Benchmark 汇总
coding.iamle.com 国内 Coding Plan 横评
reddit.com/r/LocalLLaMA 社区用户真实评价

报告生成时间:2026-03-02 | 信息截止:2026-03-02