Task task-model-research-40164 — 国产大模型调研（GLM5 / Qwen3.5 / Kimi2.5 及其他）

文件路径

task.md（本文件，创建后不再修改）：/root/.openclaw/workspace/tasks/task-model-research-40164/task.md
session.md（执行日志，只追加）：/root/.openclaw/workspace/tasks/task-model-research-40164/session.md

原始需求

调研当前主流国产大模型（重点：GLM-5 / Qwen3.5 / Kimi 2.5，也可扩展到同等竞品），从以下几个维度进行综合评估：

能力对比：各模型综合能力概览（推理、指令遵循、创意、长文处理等）
Coding 能力：重点评估 coding 相关表现（代码生成质量、Benchmark 成绩、实际评价）
优劣势分析：各模型相比的核心优势和明显短板
价格与性价比：API 定价、上下文窗口、速度、限制等
购买建议：从"给爱衣（AI 助手）当备用模型"的角度，综合考虑性价比、coding 能力、稳定性，给出具体购买/接入推荐

执行链

researcher → 爱衣质检

各 Agent 职责

Ai.Res（session key: `agent:researcher:main`）

任务：按上述 5 个维度进行深度调研，搜集最新信息（Benchmark、官方定价、社区评测、真实用户反馈），整理成结构化报告，输出到 session.md。

重点关注：
- GLM-5 / GLM-5-Air / GLM-5-Flash 等系列，官方名称以最新发布为准
- Qwen3.5（Qwen 最新版本，重点关注 coding 能力）
- Kimi 2.5（Moonshot AI 最新）
- 可参考 LiveCodeBench、HumanEval、BigCodeBench、SWE-bench 等 coding benchmark

开始时：
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "国产模型调研" task-model-research-40164

完成后：
1. 将调研报告追加到 session.md
2. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "国产模型调研" main task-model-research-40164
3. sessions_send 通知爱衣（agent:main:main，必须传 timeoutSeconds=0，禁止省略）：
task_id=task-model-research-40164 task=/root/.openclaw/workspace/tasks/task-model-research-40164/task.md

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-model-research-40164/

超过 80KB → 跳至「超限处理」
未超过 80KB → 继续 Step 2

Step 2：读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md

若行数 N > 0，read session.md 全文。

Step 3：质检要点

通用检查（每次必须）：
- 产出是否符合原始需求？
- 执行过程是否有明显问题？

任务特定检查：
- 是否覆盖了 GLM、Qwen、Kimi 三个重点模型？
- Coding 能力部分是否有具体 Benchmark 数据支撑？
- 定价信息是否准确（含 API 单价、免费额度）？
- 购买建议是否具体可操作（不能只说"视需求而定"）？
- 信息时效性：是否基于最新版本？

Step 4：输出结论

通过 →

发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "国产模型调研" task-model-research-40164
用 message 工具发送给主人（telegram, 92763607），归纳调研结论和购买建议
⚠️ 必须调用 message 工具，不能只在主对话回复

不通过（rejectCount == 0） →
1. 分析问题根因，设计新执行链
2. 创建新的 task.md（task_id 加后缀 -retry1），session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "国产模型调研" "researcher → main" researcher 1 task-model-research-40164

rejectCount >= 1（第二次仍失败） →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "国产模型调研" task-model-research-40164
2. message 主人，归纳问题和两次失败原因，请主人裁决

超限处理（工作区 > 80KB）

仅读 task.md（了解需求）
读 session.md 末尾 200 行：
bash wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md # 获取总行数 N # 然后 read offset=max(1, N-200) limit=200
message 主人：任务已完成，但工作区内容繁多（XXkB），建议人工审计，附简单归纳