task-embed-accel-087b94 / task.md

任务 ID: task-embed-accel-087b94 | 文件: task.md | 最后修改: 2026-02-27 19:26:24

Task task-embed-accel-087b94 — Qwen3-Embedding 加速方案深度调研

文件路径

原始需求

基于现有 embedding-decision.md 报告，进一步调研：
1. 报告中提到的问题（ONNX 慢、BF16 无效、fastembed 不支持 Qwen3）是否有解决方案或新进展？
2. 除 torch.compile + zentorch 外，还有哪些其他加速方案？
3. 综合评估：哪些方案值得在 RS1000 实际部署后测试？

背景资料（必读）：
- 决策文档：/root/.openclaw/workspace/memory/docs/embedding-decision.md
- 进阶调研报告：/root/.openclaw/workspace/tasks/task-embed-further-b1f87d/session.md

RS1000 硬件环境：
- CPU：AMD EPYC（Zen4，AVX-512 + VNNI 支持）
- 4 vCPU（虚拟机）
- 内存：~8GB 可用
- 当前最优：sentence_transformers + Qwen3-0.6B，batch=8，threads=4，FP32，17.3条/秒

执行链

各 Agent 职责

Ai.Res（session key: agent:researcher:main）

任务：深度调研 Qwen3-Embedding 在 CPU（AMD EPYC Zen4）上的加速方案，重点回答以下问题：

Q1：已知问题的新进展
- ONNX Runtime 在 AMD EPYC 上慢的根因是否有官方修复？（ONNX Runtime 1.24+ 是否改善了 AVX-512 利用率？）
- fastembed 是否已支持 Qwen3-Embedding？（检查 fastembed GitHub releases / PyPI changelog）
- sentence_transformers 的 BF16 内部 upcast 问题是否有 workaround？（如手动 .half() + 自定义推理）

Q2：其他加速方案
- OpenVINO：Intel 的推理框架，是否支持 AMD CPU？optimum-intel 的 OpenVINO backend 在 AMD 上的表现？
- llama.cpp / GGUF：Qwen3-Embedding 是否有 GGUF 格式？llama.cpp 的 CPU 推理（Q4/Q8 量化）在 embedding 任务上的吞吐？
- ctransformers / CTranslate2：是否支持 embedding 模型？AMD EPYC 上的表现？
- 手动 ONNX 优化：使用 onnxruntime-extensions 或 ort-optimizer 对 Qwen3 ONNX 图做 O2/O3 优化，是否能超过 PyTorch 路径？
- 多进程并行：Python multiprocessing 启动多个 embedding worker，是否能线性扩展（4 vCPU 场景）？
- 其他 AMD 专属优化：ROCm CPU path、AMD ZenDNN、BLIS/AOCL 等

Q3：综合评估
- 对每个方案给出：可行性（1-5）、预期收益（%）、工程复杂度（低/中/高）、推荐优先级
- 最终给出一个"推荐测试顺序"列表

调研要求：
- 以搜索为主，查最新文档/GitHub issues/benchmark 报告
- 不需要实际运行测试，只做文献调研
- 结论要有依据（附来源链接）
- 输出到 session.md

开始时：
1. 发工作日志：

bash
   /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "Qwen3-Embedding 加速方案深度调研" task-embed-accel-087b94

完成后：
1. 将完整报告追加到 session.md
2. 发工作日志：

bash
   /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "Qwen3-Embedding 加速方案深度调研" main task-embed-accel-087b94

3. sessions_send 通知爱衣（agent:main:main，必须传 timeoutSeconds=0，禁止省略）：

task_id=task-embed-accel-087b94
   task=/root/.openclaw/workspace/tasks/task-embed-accel-087b94/task.md

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

Step 2：读取 session.md

Step 3：质检要点

通用检查（每次必须）：
- 产出是否符合原始需求？
- 执行过程是否有明显问题？

任务特定检查：
- Q1/Q2/Q3 三个问题是否都有实质性回答？
- 每个方案是否有可行性/收益/复杂度评估？
- 结论是否有依据（来源链接）？
- 是否给出了推荐测试顺序？

Step 4：输出结论

通过 →
1. 将报告关键结论更新到 memory/docs/embedding-decision.md（追加新章节）
2. 发工作日志：

bash
   /root/.openclaw/workspace/scripts/log-to-channel.sh main done "Qwen3-Embedding 加速方案深度调研" task-embed-accel-087b94

3. 用 message 工具发送给主人（telegram, 92763607），归纳调研结论

不通过（rejectCount == 0） →
1. 分析问题根因，设计新执行链
2. 创建新的 task.md（task_id 加后缀 -retry1），session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志：

bash
   /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "Qwen3-Embedding 加速方案深度调研" "researcher → main" researcher 1 task-embed-accel-087b94

rejectCount >= 1（第二次仍失败） →
1. 发工作日志：

bash
   /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "Qwen3-Embedding 加速方案深度调研" task-embed-accel-087b94

2. message 主人，归纳问题和两次失败原因，请主人裁决

Task task-embed-accel-087b94 — Qwen3-Embedding 加速方案深度调研

文件路径

原始需求

执行链

各 Agent 职责

Ai.Res（session key: `agent:researcher:main`）

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

Step 2：读取 session.md

Step 3：质检要点

Step 4：输出结论

超限处理（工作区 > 80KB）

Task task-embed-accel-087b94 — Qwen3-Embedding 加速方案深度调研

文件路径

原始需求

执行链

各 Agent 职责

Ai.Res（session key: agent:researcher:main）

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

Step 2：读取 session.md

Step 3：质检要点

Step 4：输出结论

超限处理（工作区 > 80KB）

Ai.Res（session key: `agent:researcher:main`）