/root/.openclaw/workspace/tasks/task-search-test01/task.md/root/.openclaw/workspace/tasks/task-search-test01/session.md对 scripts/search.py(v1.0.0,92个Searcher类,14大类)进行综合测试:
- 由 Ai.Rev 设计测试方案(覆盖哪些类别、哪些典型 Searcher、判断标准)
- 由 Ai.Dev 执行测试,输出测试报告
Ai.Rev(出测试方案)→ Ai.Dev(执行测试+出报告)→ 爱衣质检
agent:reviewer:main)任务:阅读 scripts/search.py 全文(或先读结构),设计一份综合测试方案,写入 session.md。
测试方案要求:
1. 从 14 大类中各选 2-3 个代表性 Searcher(无需全覆盖,选典型的)
2. 每个 Searcher 给出测试查询词和判断标准(通过/失败/降级的定义)
3. 分三档评级:✅ 可用(有合理结果)/ ⚠️ 降级(有结果但质量差)/ ❌ 不可用(报错或空结果)
4. 说明哪些类别预期会失败(SPA / 需 API Key / 网络限制),以便 Ai.Dev 不需要反复排查
5. 给出 Ai.Dev 执行测试的命令格式(python3 scripts/search.py <category> <query>)
注意:
- search.py 路径:/root/.openclaw/workspace/scripts/search.py
- 可先运行 python3 scripts/search.py --help 或 python3 scripts/search.py --list 了解接口
- 测试范围适中,Ai.Dev 执行时控制在 30-40 个测试项左右,不要全覆盖
开始时:
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh reviewer receive "search.py 综合测试" task-search-test01
完成后:
1. 将测试方案追加到 /root/.openclaw/workspace/tasks/task-search-test01/session.md
2. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh reviewer handoff "search.py 综合测试" coder task-search-test01
3. sessions_send 通知 Ai.Dev(agent:coder:main):
task_id=task-search-test01
task=/root/.openclaw/workspace/tasks/task-search-test01/task.md
agent:coder:main)任务:按照 session.md 中 Ai.Rev 制定的测试方案,逐一执行测试,输出完整测试报告写入 session.md。
执行要求:
1. 先读 task.md,再读 session.md(获取 Ai.Rev 的测试方案)
2. 按方案逐项执行,每项记录:查询词、输出摘要(前50字)、评级(✅/⚠️/❌)
3. 遇到超时(>15秒)直接标记 ❌ timeout,不要等待
4. 测试之间 sleep 1,避免触发限流
5. 最终汇总:各类别通过率、整体可用数量、主要问题
测试执行目录:/root/.openclaw/workspace/(search.py 路径从此目录相对引用)
报告格式:
## 测试报告 — search.py v1.0.0
执行时间:YYYY-MM-DD HH:MM
### 测试结果汇总
| 类别 | 测试数 | ✅可用 | ⚠️降级 | ❌不可用 |
...
### 详细结果
#### [类别名]
| Searcher | 查询词 | 评级 | 输出摘要 |
...
### 问题与发现
...
开始时:
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh coder receive "search.py 综合测试" task-search-test01
完成后:
1. 将测试报告追加到 /root/.openclaw/workspace/tasks/task-search-test01/session.md
2. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh coder handoff "search.py 综合测试" main task-search-test01
3. sessions_send 通知爱衣(agent:main:main):
task_id=task-search-test01
task=/root/.openclaw/workspace/tasks/task-search-test01/task.md
du -sb /root/.openclaw/workspace/tasks/task-search-test01/
wc -l /root/.openclaw/workspace/tasks/task-search-test01/session.md
若行数 N > 0,read session.md 全文。
通用检查(每次必须):
- 产出是否符合原始需求?
- 执行过程是否有明显问题?
- Agent 间是否有未解决的分歧?
任务特定检查:
- 测试方案是否覆盖了各主要大类(至少 8 个类别以上)?
- 测试报告格式是否完整(汇总表 + 详细结果 + 问题发现)?
- 评级标准是否一致(✅/⚠️/❌ 三档)?
- 已知 SPA/不可用源是否有标注,不是都算成"失败"?
通过 →
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main done "search.py 综合测试" task-search-test01
2. 用 message 工具发送给主人(telegram, 92763607),归纳测试报告核心结果(可用数/不可用数/主要问题)
⚠️ 必须调用 message 工具,不能只在主对话回复
不通过(rejectCount == 0) →
1. 分析问题根因,设计新执行链
2. 创建新的 task.md(task_id 加后缀 -retry1),session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main retry "search.py 综合测试" "<新执行链>" <起始role> 1 task-search-test01
rejectCount >= 1(第二次仍失败) →
1. 发工作日志:
bash
/root/.openclaw/workspace/scripts/log-to-channel.sh main fail "search.py 综合测试" task-search-test01
2. message 主人,归纳问题和两次失败原因,请主人裁决
bash
wc -l /root/.openclaw/workspace/tasks/task-search-test01/session.md # 获取总行数 N
# 然后 read offset=max(1, N-200) limit=200