/root/.openclaw/workspace/tasks/task-model-research-40164/task.md/root/.openclaw/workspace/tasks/task-model-research-40164/session.md调研当前主流国产大模型(重点:GLM-5 / Qwen3.5 / Kimi 2.5,也可扩展到同等竞品),从以下几个维度进行综合评估:
researcher → 爱衣质检
agent:researcher:main)任务:按上述 5 个维度进行深度调研,搜集最新信息(Benchmark、官方定价、社区评测、真实用户反馈),整理成结构化报告,输出到 session.md。
重点关注:
- GLM-5 / GLM-5-Air / GLM-5-Flash 等系列,官方名称以最新发布为准
- Qwen3.5(Qwen 最新版本,重点关注 coding 能力)
- Kimi 2.5(Moonshot AI 最新)
- 可参考 LiveCodeBench、HumanEval、BigCodeBench、SWE-bench 等 coding benchmark
开始时:
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "国产模型调研" task-model-research-40164
完成后:
1. 将调研报告追加到 session.md
2. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "国产模型调研" main task-model-research-40164
3. sessions_send 通知爱衣(agent:main:main,必须传 timeoutSeconds=0,禁止省略):
task_id=task-model-research-40164
task=/root/.openclaw/workspace/tasks/task-model-research-40164/task.md
du -sb /root/.openclaw/workspace/tasks/task-model-research-40164/
wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md
若行数 N > 0,read session.md 全文。
通用检查(每次必须):
- 产出是否符合原始需求?
- 执行过程是否有明显问题?
任务特定检查:
- 是否覆盖了 GLM、Qwen、Kimi 三个重点模型?
- Coding 能力部分是否有具体 Benchmark 数据支撑?
- 定价信息是否准确(含 API 单价、免费额度)?
- 购买建议是否具体可操作(不能只说"视需求而定")?
- 信息时效性:是否基于最新版本?
通过 →
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main done "国产模型调研" task-model-research-40164message 工具发送给主人(telegram, 92763607),归纳调研结论和购买建议不通过(rejectCount == 0) →
1. 分析问题根因,设计新执行链
2. 创建新的 task.md(task_id 加后缀 -retry1),session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main retry "国产模型调研" "researcher → main" researcher 1 task-model-research-40164
rejectCount >= 1(第二次仍失败) →
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main fail "国产模型调研" task-model-research-40164
2. message 主人,归纳问题和两次失败原因,请主人裁决
bash
wc -l /root/.openclaw/workspace/tasks/task-model-research-40164/session.md # 获取总行数 N
# 然后 read offset=max(1, N-200) limit=200