任务 ID: task-qwen-slowdown-57063 | 文件: task.md | 最后修改: 2026-02-27 09:51:47

Task task-qwen-slowdown-57063 — Qwen3-Embedding 在 LE-B 异常慢的原因调查

文件路径

task.md（本文件）：/root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/task.md
session.md（执行日志）：/root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/session.md

原始需求

实测中发现 Qwen3-Embedding-0.6B 在 LE-B 上吞吐量仅 1.5 条/秒，比同机器 BGE-M3 慢 8.3 倍，比 RS1000 上同模型慢 10.5 倍。需要调查确定原因，判断是硬件限制、框架问题还是测试不严谨。

关键背景数据

测试结果对比

组次	吞吐量	备注
RS1000 × BGE-M3	9.3 条/秒	正常
RS1000 × Qwen3-0.6B	15.7 条/秒	正常
LE-B × BGE-M3	12.5 条/秒	正常
LE-B × Qwen3-0.6B	1.5 条/秒	⚠️ 异常

硬件指令集差异（已确认）

LE-B：Intel Xeon E3-1270 v6，仅有 AVX2，无 AVX-512
RS1000：AMD EPYC 9634，有完整 AVX-512（avx512f/bw/vl/vnni/bf16 等）

模型架构差异

BGE-M3：BERT-style encoder，sentence-transformers 原生支持，ONNX 优化成熟
Qwen3-Embedding-0.6B：decoder-only（LLaMA-style），基于 Qwen3 LLM，使用 last_token_pool，sentence-transformers 支持较新

测试框架

使用 sentence-transformers（非 fastembed/ONNX）
测试语料平均长度仅 56 字符

调研维度

AVX-512 是否是根本原因
Qwen3-Embedding 的 PyTorch 算子是否依赖 AVX-512？
无 AVX-512 的 CPU 上 PyTorch 推理是否有已知性能退化？
官方或社区是否有 Xeon E3 系列（Kaby Lake，无 AVX-512）上的性能报告？
sentence-transformers 对 decoder-style embedding 的支持问题
Qwen3-Embedding 官方推荐的推理框架是什么？
sentence-transformers 调用 Qwen3-Embedding 的路径（last_token_pool）是否有已知性能问题？
改用 transformers 原生 / fastembed / ONNX Runtime 是否能解决？
是否有其他已知原因
PyTorch 版本对 Kaby Lake CPU 的优化情况
内存带宽是否可能是瓶颈（LE-B DDR4 vs RS1000 DDR5）
batch_size 设置对 decoder 模型的影响
结论：能否解决
如果是 AVX-512 缺失：是硬件限制，无法解决，只能换框架（ONNX/量化）缓解
如果是框架问题：换 fastembed 或 transformers 原生可能解决
如果是测试不严谨：说明具体哪里不严谨，如何重测

各 Agent 职责

Ai.Res（session key: `agent:researcher:main`）

任务：调查上述 4 个维度，给出有依据的结论（有确定原因 / 可能原因 / 测试问题），并给出是否可解决的建议。

开始时：
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063

完成后：
1. 将调查报告追加到 session.md
2. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "Qwen3 LE-B 异常慢原因调查" main task-qwen-slowdown-57063
3. sessions_send 通知爱衣（agent:main:main，必须传 timeoutSeconds=0，禁止省略）：
task_id=task-qwen-slowdown-57063 task=/root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/task.md

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/

超过 80KB → 跳至「超限处理」
未超过 80KB → 继续 Step 2

Step 2：读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-qwen-slowdown-57063/session.md

若行数 N > 0，read session.md 全文。

Step 3：质检要点

通用检查：
- 产出是否符合原始需求？
- 执行过程是否有明显问题？

任务特定检查：
- 是否覆盖了 4 个调研维度？
- 是否给出了明确结论（确定原因 / 可能原因 / 测试问题）？
- 是否给出了可操作的建议（能否解决、如何解决）？

Step 4：输出结论

通过 →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063
2. 用 message 工具发送给主人（telegram, 92763607），归纳调查结论
⚠️ 必须调用 message 工具，不能只在主对话回复

不通过（rejectCount == 0） →
1. 分析问题根因，设计新执行链
2. 创建新的 task.md（task_id 加后缀 -retry1），session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "Qwen3 LE-B 异常慢原因调查" "researcher → main" researcher 1 task-qwen-slowdown-57063

rejectCount >= 1（第二次仍失败） →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "Qwen3 LE-B 异常慢原因调查" task-qwen-slowdown-57063
2. message 主人，归纳问题和两次失败原因，请主人裁决

超限处理（工作区 > 80KB）

仅读 task.md（了解需求）
读 session.md 末尾 200 行
message 主人：任务已完成，但工作区内容繁多，建议人工审计，附简单归纳