任务 ID: task-qwen-slowdown-57063  |  文件: task.md  |  最后修改: 2026-02-27 09:51:47

Task task-qwen-slowdown-57063 — Qwen3-Embedding 在 LE-B 异常慢的原因调查

文件路径

原始需求

实测中发现 Qwen3-Embedding-0.6B 在 LE-B 上吞吐量仅 1.5 条/秒,比同机器 BGE-M3 慢 8.3 倍,比 RS1000 上同模型慢 10.5 倍。需要调查确定原因,判断是硬件限制、框架问题还是测试不严谨。

关键背景数据

测试结果对比

组次 吞吐量 备注
RS1000 × BGE-M3 9.3 条/秒 正常
RS1000 × Qwen3-0.6B 15.7 条/秒 正常
LE-B × BGE-M3 12.5 条/秒 正常
LE-B × Qwen3-0.6B 1.5 条/秒 ⚠️ 异常

硬件指令集差异(已确认)

模型架构差异

测试框架


调研维度

  1. AVX-512 是否是根本原因
  2. Qwen3-Embedding 的 PyTorch 算子是否依赖 AVX-512?
  3. 无 AVX-512 的 CPU 上 PyTorch 推理是否有已知性能退化?
  4. 官方或社区是否有 Xeon E3 系列(Kaby Lake,无 AVX-512)上的性能报告?

  5. sentence-transformers 对 decoder-style embedding 的支持问题

  6. Qwen3-Embedding 官方推荐的推理框架是什么?
  7. sentence-transformers 调用 Qwen3-Embedding 的路径(last_token_pool)是否有已知性能问题?
  8. 改用 transformers 原生 / fastembed / ONNX Runtime 是否能解决?

  9. 是否有其他已知原因

  10. PyTorch 版本对 Kaby Lake CPU 的优化情况
  11. 内存带宽是否可能是瓶颈(LE-B DDR4 vs RS1000 DDR5)
  12. batch_size 设置对 decoder 模型的影响

  13. 结论:能否解决

  14. 如果是 AVX-512 缺失:是硬件限制,无法解决,只能换框架(ONNX/量化)缓解
  15. 如果是框架问题:换 fastembed 或 transformers 原生可能解决
  16. 如果是测试不严谨:说明具体哪里不严谨,如何重测

各 Agent 职责


Ai.Res(session key: agent:researcher:main

任务:调查上述 4 个维度,给出有依据的结论(有确定原因 / 可能原因 / 测试问题),并给出是否可解决的建议。

开始时:
1. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063

完成后:
1. 将调查报告追加到 session.md
2. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "Qwen3 LE-B 异常慢原因调查" main task-qwen-slowdown-57063
3. sessions_send 通知爱衣(agent:main:main必须传 timeoutSeconds=0,禁止省略):
task_id=task-qwen-slowdown-57063 task=/root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/task.md


⚠️ 爱衣质检 SOP(收到最终通知后执行)

Step 1:评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/

Step 2:读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/session.md

若行数 N > 0,read session.md 全文。

Step 3:质检要点

通用检查:
- 产出是否符合原始需求?
- 执行过程是否有明显问题?

任务特定检查:
- 是否覆盖了 4 个调研维度?
- 是否给出了明确结论(确定原因 / 可能原因 / 测试问题)?
- 是否给出了可操作的建议(能否解决、如何解决)?

Step 4:输出结论

通过
1. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063
2. 用 message 工具发送给主人(telegram, 92763607),归纳调查结论
⚠️ 必须调用 message 工具,不能只在主对话回复

不通过(rejectCount == 0)
1. 分析问题根因,设计新执行链
2. 创建新的 task.md(task_id 加后缀 -retry1),session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "Qwen3 LE-B 异常慢原因调查" "researcher → main" researcher 1 task-qwen-slowdown-57063

rejectCount >= 1(第二次仍失败)
1. 发工作日志:
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063
2. message 主人,归纳问题和两次失败原因,请主人裁决

超限处理(工作区 > 80KB)

  1. 仅读 task.md(了解需求)
  2. 读 session.md 末尾 200 行
  3. message 主人:任务已完成,但工作区内容繁多,建议人工审计,附简单归纳