任务 ID: task-model-research-40164 | 文件: session.md | 最后修改: 2026-03-02 20:08:33

Session Log — task-model-research-40164 国产大模型调研

开始时间： 2026-03-02
执行 Agent： Ai.Res (agent:researcher:main)

执行过程摘要

搜索覆盖：
- GLM-5 官方 arxiv 技术报告（2602.15763v1）、z.ai 官方定价页
- Qwen3.5 IT之家、量子位发布报道
- Kimi K2.5 官方 GitHub、官方博客、Moonshot API 定价页
- 阮一峰实测博文、Reddit LocalLLaMA 社区反馈、码力榜横评站
- 第三方 Benchmark 聚合（apiyi.com 对比）

国产主流大模型综合调研报告

调研时间：2026-03-02
重点模型：GLM-5（智谱 z.ai）/ Qwen3.5（阿里千问）/ Kimi K2.5（月之暗面 Moonshot AI）

一、能力综合概览

1.1 GLM-5（智谱 AI / z.ai）

发布时间： 2026-02-12
定位： 从"Vibe Coding"到"Agentic Engineering"的范式升级；开源权重旗舰
架构： MoE（Model-of-Experts），采用 DSA（DeepSeek Sparse Attention）替代 MLA，降低长上下文计算成本约 1.5-2×；共享参数 MTP（Multi-token Prediction）
训练规模： 预训练总计 28.5T tokens（含中期训练 Agentic/长上下文）
上下文： 128K（API 标准），内部支持更长
推理： Intelligence Index v4.0 得分 50（开源权重模型首次达到），在 ArtificialAnalysis.ai、LMArena Text/Code 双双登顶开源第一
能力亮点：
复杂系统工程能力（后端、重构、深度调试）
长程 Agent 任务（连续自主运行数小时不乱）
完全适配国产芯片（华为 Ascend、摩尔线程、海光、寒武纪、昆仑芯、壁仞、燧原）
Vending-Bench 2（长期商业运营模拟）开源模型第��

1.2 Qwen3.5（阿里云千问）

发布时间： 2026-02-16（除夕夜）
核心版本： Qwen3.5-Plus（闭源 API） + Qwen3.5-397B-A17B（开源旗舰）
架构创新：
Gated DeltaNet（线性注意力）+ 稀疏 MoE 混合架构
总参 3970 亿，激活仅 170 亿（激活比约 4.3%）
词表扩展：15 万 → 25 万（多语言编码效率提升 10-60%）
语言支持：119 → 201 种（含方言）
原生多模态（预训练阶段混合视觉+文本 Token，非后期融合）
支持最长 2 小时超长视频输入 + 1M 上下文原生
能力亮点：
MMLU-Pro：87.8（超 GPT-5.2）
GPQA：88.4（高于 Claude 4.5）
IFBench：76.5（刷新指令遵循榜单纪录）
BFCL-V4（通用 Agent）、BrowseComp（搜索 Agent）均超 Gemini 3 Pro
吞吐量：256k context 下解码吞吐是 Qwen3-Max 的 19 倍，显存需求降低 60%

1.3 Kimi K2.5（月之暗面 Moonshot AI）

发布时间： 2026-01-27（无预告突然发布）
定位： 原生多模态 Agentic 旗舰模型，"模型 + Agent 一体化"
架构： MoE，总参 1T，激活参数 32B；61 层（含 1 Dense 层）；MLA 注意力；MoonViT 视觉编码器（400M 参）；词表 160K；上下文 256K
训练： 在 Kimi-K2-Base 基础上以约 15T 混合视觉+文本 Token 继续预训练
能力亮点：
原生视觉编程（视频→代码、图→代码、截图调试 UI）
Agent Swarm：最多自动调度 100 个子 Agent，1500 步工具调用，执行效率提升 4.5×
HLE with tools：50.2（超 GPT-5.2 的 45.5，全球第一）
SWE-Bench Verified：76.8%；LiveCodeBench v6：83.1%~85.0%
支持 4 种模式：Instant / Thinking / Agent / Agent Swarm (Beta)
Kimi Code CLI（对标 Claude Code 命令行工具）

二、Coding 能力专项

Benchmark	GLM-5	Qwen3.5	Kimi K2.5
SWE-Bench Verified	~75%（综合 8 benchmark 约 20% 超 GLM-4.7，与 Opus 4.5 持平）	未单独公布	76.8%
SWE-Bench Multilingual	参与评测，领先开源	未公布	73.0%
LiveCodeBench v6	参与（具体分未公布，≥GLM-4.7 显著）	未公布（GPQA 88.4 间接反映推理力强）	83.1%~85.0%
Terminal-Bench 2.0	参与	未公布	50.8%
LMArena Code Arena	开源第一	未单独公布	开源前列
MMLU-Pro	未具体公布	87.8（超 GPT-5.2）	未公布
AIME 2025（数学）	未公布	未公布	96.1
IFBench（指令遵循）	参与	76.5（榜单第一）	未公布
前端代码生成	★★★★	★★★★	★★★★★（原生视觉编程）
后端/系统工程	★★★★★（核心强项）	★★★★	★★★★

社区实测（Reddit LocalLLaMA、阮一峰测评）：
- GLM-5（vs Opus 4.6 vs GPT-5.3-Codex 实测 4 项任务）：
- 网页设计：与 Opus 4.6 并列，GPT 最差
- 3D 沙盒：Opus 4.6 最佳，GLM-5 次之
- 愤怒小鸟：Opus 4.6 最佳，GLM-5 可玩，GPT 直接挂
- Laravel → Next.js：GLM-5 最快（5 分钟完成，无报错），体验最佳
- 总评："国产开源版 Opus 4.6 平替，某些细节差距不是质的差别"
- Kimi K2.5（Reddit 社区）：
- "对于大型 React 项目，精准度约 Sonnet 4.5 水平，明显优于 GLM-4.7"
- "视觉编程还原度超出预期，可直接上线"
- 缺点：响应速度慢（早期用户反馈）；Coding Plan 按调用次数计费，重度用户性价比差

三、优劣势分析

GLM-5

维度	评估
✅ 核心优势	系统工程能力强（后端/调试/重构）；长程 Agent 稳定；LMArena Code 开源第一；国产芯片全适配；开源权重可自部署
✅ 生态	z.ai Coding Plan 工具兼容性最广（20+ 工具）；免费 MCP；GLM-5-Flash/Air 轻量版可用
❌ 短板	前端审美/动效不如 Kimi K2.5 精致；视觉原生能力弱于 Kimi K2.5；HLE 纯推理（不带工具）弱于 Qwen3.5/Kimi K2.5

Qwen3.5-Plus / Qwen3.5-397B

维度	评估
✅ 核心优势	综合推理最强（MMLU-Pro、GPQA、IFBench 全线领先）；原生多模态能力最系统；201 语言全覆盖；吞吐量高（19× Qwen3-Max）；最便宜旗舰定价（¥0.8/M tokens）
✅ 生态	开源可下载自部署（397B-A17B）；魔搭社区 / HuggingFace 均可获取
❌ 短板	Coding 专项 Benchmark 数据较少公布（SWE-bench 未有官方数据）；Kimi Code CLI 类竞品工具较晚跟进；视频推理支持极长但实际 Agent 工具链不如 Kimi 完整

Kimi K2.5

维度	评估
✅ 核心优势	视觉编程（图/视频→代码）最强；Agent Swarm 并发执行独特（100 子 Agent）；HLE with tools 全球第一（50.2）；Kimi Code CLI 即开即用；前端代码还原度极高
✅ 生态	原生 Kimi Code 工具链；API 成本低（输入 ¥0.7~4.0/M）；开源权重（MoonshotAI/Kimi-K2.5 GitHub）
❌ 短板	响应速度慢（早期用户实测）；按调用次数计费导致 Agent 场景计费不合理；SWE-Bench Verified 76.8% 低于 Claude 4.5（80.9%）；系统级后端工程能力弱于 GLM-5

四、价格与性价比

API 定价对比

模型	输入（缓存命中）	输入（未命中）	输出	上下文	来源
GLM-5（z.ai 英文站，USD）	$0.20/M	$1.00/M	$3.20/M	128K	docs.z.ai
GLM-5-Code（z.ai）	$0.30/M	$1.20/M	$5.00/M	128K	docs.z.ai
GLM-4.7-Flash（z.ai）	Free	Free	Free	—	docs.z.ai
GLM-4.5-Flash（z.ai）	Free	Free	Free	—	docs.z.ai
Qwen3.5-Plus（阿里云百炼，人民币）	未公布缓存	¥0.8/M	未官方公布（~¥3/M 估算）	128K→1M	量子位报道
Kimi K2.5（Moonshot，人民币）	¥0.70/M	¥4.00/M	¥21.00/M	256K	platform.moonshot.cn
Kimi K2（kimi-k2-0905）	¥1.00/M	¥4.00/M	¥16.00/M	256K	platform.moonshot.cn
Kimi K2 Turbo	¥1.00/M	¥8.00/M	¥58.00/M	256K	platform.moonshot.cn

汇率换算参考（2026-03-02 约 7.2）：GLM-5 输出 $3.2/M ≈ ¥23/M；Kimi K2.5 输出 ¥21/M 相近。
Qwen3.5-Plus ¥0.8/M 输入是最便宜旗舰，Gemini 3 Pro 的 1/18。

Coding Plan 月订阅（适合高频开发者）

平台	入门价	核心模型	特色
智谱 GLM（z.ai）	¥49/月	GLM-5 + GLM-4.7	工具兼容最广（20+），免费 MCP
MiniMax	¥29/月	M2.5	按次计费，100+ TPS 高速
火山引擎方舟	¥40/月（¥8.91 首月）	Doubao-Seed-2.0-Code + Kimi-K2.5 + GLM-4.7	6 模型自由切换
阿里云百炼	¥40/月（¥7.9 首月）	Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5	千问全家桶，首月最低
Kimi	¥49/月	Kimi K2.5	按调用次数（对 Agent 场景不划算）

五、购买建议（从"给爱衣当备用模型"视角）

🎯 需求分析

使用场景：AI 助手备用模型（主要任务：coding、研究、长文、复杂推理）
优先级：性价比 > coding 能力 > 稳定性 > 多模态

🏆 推荐方案

首��：阿里云百炼 Coding Plan ¥40/月（首月 ¥7.9）

理由：
1. ¥7.9 首月极低风险测试
2. 一个 Plan 里含 Qwen3.5-Plus + GLM-5 + Kimi-K2.5 + MiniMax-M2.5，等于 4 个旗舰模型可切换
3. 1200 次/5h 配额，覆盖大多数 Agent Coding 场景
4. 模型全面：推理用 Qwen3.5、系统工程用 GLM-5、视觉编程用 Kimi K2.5

备选 A：智谱 z.ai Coding Plan ¥49/月（GLM-5 专攻后端工程）
- 工具兼容性最广（20+ IDE 工具），MCP 免费
- 适合主要用 Claude Code 风格 CLI 做复杂工程项目

备选 B：纯 API Pay-as-you-go（灵活度最高）
- GLM-5 API（z.ai）：输入 $1/M 输出 $3.2/M，约 ¥7/M 和 ¥23/M
- Qwen3.5-Plus（阿里云百炼）：¥0.8/M 输入，最性价比
- Kimi K2.5 API：¥4/M 输入 + ¥21/M 输出（视觉编程必用，其他场景可改用 Qwen3.5）

🔑 具体配置建议

主要用途 → 推荐模型
─────────────────────────────────────
通用推理/长文/知识问答 → Qwen3.5-Plus（¥0.8/M 最便宜）
复杂系统工程/后端重构  → GLM-5（LMArena Code 开源第一）
前端/视觉编程/UI 还原  → Kimi K2.5（视觉编程无可替代）
日常快速对话           → GLM-4.7-Flash / GLM-4.5-Flash（免费）

⚠️ 注意事项

Kimi K2.5 响应速度：早期用户反馈偏慢，重度使用前建议先测速
Kimi Coding Plan 计费：按调用次数（非 Token），Agent 每次读文件都计 1 次，重度 Agent 场景容易耗尽额度
GLM-5 vs Qwen3.5 中文写作：两者中文均很好，但 Qwen3.5 IFBench 指令遵循更强，长文创作建议用 Qwen3.5
OpenRouter 兜底：三家 API 均可通过 OpenRouter 访问，但价格会加价约 15-20%

六、信息来源

来源	内容
arxiv.org/abs/2602.15763	GLM-5 官方技术报告
docs.z.ai/guides/overview/pricing	GLM-5 系列官方定价（USD）
github.com/MoonshotAI/Kimi-K2.5	Kimi K2.5 官方 GitHub + Benchmark 数据
platform.moonshot.cn/docs/pricing/chat	Kimi API 官方人民币定价
ithome.com/0/922/114.htm	Qwen3.5 IT之家发布报道
qbitai.com/2026/02/380433.html	量子位 Qwen3.5 定价报道（¥0.8/M 输入）
ruanyifeng.com/blog/2026/02/glm-5.html	阮一峰 GLM-5 实测 vs Opus 4.6
help.apiyi.com（Kimi K2.5 Coding Benchmark 对比）	第三方 Benchmark 汇总
coding.iamle.com	国内 Coding Plan 横评
reddit.com/r/LocalLLaMA	社区用户真实评价

报告生成时间：2026-03-02 | 信息截止：2026-03-02