任务 ID: task-model-research-40164  |  文件: task.md  |  最后修改: 2026-03-02 19:41:15

Task task-model-research-40164 — 国产大模型调研(GLM5 / Qwen3.5 / Kimi2.5 及其他)

文件路径

原始需求

调研当前主流国产大模型(重点:GLM-5 / Qwen3.5 / Kimi 2.5,也可扩展到同等竞品),从以下几个维度进行综合评估:

  1. 能力对比:各模型综合能力概览(推理、指令遵循、创意、长文处理等)
  2. Coding 能力:重点评估 coding 相关表现(代码生成质量、Benchmark 成绩、实际评价)
  3. 优劣势分析:各模型相比的核心优势和明显短板
  4. 价格与性价比:API 定价、上下文窗口、速度、限制等
  5. 购买建议:从"给爱衣(AI 助手)当备用模型"的角度,综合考虑性价比、coding 能力、稳定性,给出具体购买/接入推荐

执行链

researcher → 爱衣质检


各 Agent 职责


Ai.Res(session key: agent:researcher:main

任务:按上述 5 个维度进行深度调研,搜集最新信息(Benchmark、官方定价、社区评测、真实用户反馈),整理成结构化报告,输出到 session.md。

重点关注:
- GLM-5 / GLM-5-Air / GLM-5-Flash 等系列,官方名称以最新发布为准
- Qwen3.5(Qwen 最新版本,重点关注 coding 能力)
- Kimi 2.5(Moonshot AI 最新)
- 可参考 LiveCodeBench、HumanEval、BigCodeBench、SWE-bench 等 coding benchmark

开始时:
1. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "国产模型调研" task-model-research-40164

完成后:
1. 将调研报告追加到 session.md
2. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "国产模型调研" main task-model-research-40164
3. sessions_send 通知爱衣(agent:main:main必须传 timeoutSeconds=0,禁止省略):
task_id=task-model-research-40164 task=/root/.openclaw/workspace/tasks/task-model-research-40164/task.md


⚠️ 爱衣质检 SOP(收到最终通知后执行)

Step 1:评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-model-research-40164/

Step 2:读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md

若行数 N > 0,read session.md 全文。

Step 3:质检要点

通用检查(每次必须):
- 产出是否符合原始需求?
- 执行过程是否有明显问题?

任务特定检查:
- 是否覆盖了 GLM、Qwen、Kimi 三个重点模型?
- Coding 能力部分是否有具体 Benchmark 数据支撑?
- 定价信息是否准确(含 API 单价、免费额度)?
- 购买建议是否具体可操作(不能只说"视需求而定")?
- 信息时效性:是否基于最新版本?

Step 4:输出结论

通过

  1. 发工作日志:
    bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "国产模型调研" task-model-research-40164
  2. message 工具发送给主人(telegram, 92763607),归纳调研结论和购买建议
    ⚠️ 必须调用 message 工具,不能只在主对话回复

不通过(rejectCount == 0)
1. 分析问题根因,设计新执行链
2. 创建新的 task.md(task_id 加后缀 -retry1),session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "国产模型调研" "researcher → main" researcher 1 task-model-research-40164

rejectCount >= 1(第二次仍失败)
1. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "国产模型调研" task-model-research-40164
2. message 主人,归纳问题和两次失败原因,请主人裁决

超限处理(工作区 > 80KB)

  1. 仅读 task.md(了解需求)
  2. 读 session.md 末尾 200 行:
    bash wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md # 获取总行数 N # 然后 read offset=max(1, N-200) limit=200
  3. message 主人:任务已完成,但工作区内容繁多(XXkB),建议人工审计,附简单归纳