← 所有任务 | task.md | session.md

任务 ID: task-leb-accel-research-61423 | 文件: task.md | 最后修改: 2026-02-27 10:54:33

Task task-leb-accel-research-61423 — LE-B CPU 推理加速方案调研

文件路径

task.md（本文件，创建后不再修改）：/root/.openclaw/workspace/tasks/task-leb-accel-research-61423/task.md
session.md（执行日志，只追加）：/root/.openclaw/workspace/tasks/task-leb-accel-research-61423/session.md

原始需求

调查在 Intel Xeon E3-1270 v6（Kaby Lake，AVX2，无 AVX-512）上进行 embedding 模型推理的最佳加速方案，目标是找到能与 BF16 硬件加速媲美的替代方案。

背景

LE-B：Intel Xeon E3-1270 v6，4核8线程，AVX2，无 AVX-512/BF16
当前问题：Qwen3-Embedding-0.6B 在 LE-B 上因 BF16 软件模拟仅 1.5 条/秒
RS1000（EPYC 9634，有 AVX-512+BF16）上 Qwen3 跑 15.7 条/秒
目标：LE-B 上能否通过其他方案达到接近 RS1000 的速度

调研维度

ONNX Runtime + INT8 量化
ONNX Runtime 在 AVX2 CPU 上的实际加速效果（有无 benchmark 数据）
INT8 量化对 embedding 质量的影响（有无评测数据）
Qwen3-Embedding 和 BGE-M3 的 ONNX 转换支持情况
Intel OpenVINO
OpenVINO 对 Kaby Lake（第7代 Core/Xeon）的优化支持
与 ONNX Runtime 相比的性能差异
是否支持 Qwen3-Embedding（decoder-only）
fastembed 的实际加速原理
fastembed 在 AVX2 机器上的具体优化路径
与 sentence-transformers 相比的实测速度差异
其他方案
llama.cpp / llamafile 对 embedding 的支持（GGUF 量化）
CPU 线程绑定（numactl/taskset）对推理的影响
是否有专门针对 AVX2 优化的 embedding 推理库
综合结论
哪个方案在 AVX2 CPU 上最有可能达到 BF16 级别的速度
实施难度排序
是否值得在 LE-B 上继续投入，还是直接用 RS1000

执行链

researcher → 爱衣质检

各 Agent 职责

Ai.Res（session key: `agent:researcher:main`）

任务：调研上述 5 个维度，给出有数据支撑的结论和方案推荐。

⚠️ 重要：调研过程中禁止使用 SearXNG curl 命令（会被 SIGTERM 杀掉导致 abort）。请使用 web_search 工具或 web_fetch 工具进行搜索和页面读取。

开始时：
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "LE-B CPU 推理加速方案调研" task-leb-accel-research-61423

完成后：
1. 将调查报告追加到 session.md
2. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "LE-B CPU 推理加速方案调研" main task-leb-accel-research-61423
3. sessions_send 通知爱衣（agent:main:main，必须传 timeoutSeconds=0，禁止省略）：
task_id=task-leb-accel-research-61423 task=/root/.openclaw/workspace/tasks/task-leb-accel-research-61423/task.md

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-leb-accel-research-61423/

超过 80KB → 跳至「超限处理」
未超过 80KB → 继续 Step 2

Step 2：读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-leb-accel-research-61423/session.md

若行数 N > 0，read session.md 全文。

Step 3：质检要点

通用检查：
- 产出是否符合原始需求？
- 执行过程是否有明显问题？

任务特定检查：
- 是否覆盖了全部 5 个调研维度？
- 是否有实际 benchmark 数据支撑（不能只是理论分析）？
- 是否给出了明确的方案推荐和实施难度排序？
- 是否回答了"能否在 LE-B 上达到 BF16 级别速度"这个核心问题？

Step 4：输出结论

通过 →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "LE-B CPU 推理加速方案调研" task-leb-accel-research-61423
2. 用 message 工具发送给主人（telegram, 92763607），归纳调研结论
⚠️ 必须调用 message 工具，不能只在主对话回复

不通过（rejectCount == 0） →
1. 分析问题根因，设计新执行链
2. 创建新的 task.md（task_id 加后缀 -retry1），session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "LE-B CPU 推理加速方案调研" "researcher → main" researcher 1 task-leb-accel-research-61423

rejectCount >= 1（第二次仍失败） →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "LE-B CPU 推理加速方案调研" task-leb-accel-research-61423
2. message 主人，归纳问题和两次失败原因，请主人裁决

超限处理（工作区 > 80KB）

仅读 task.md（了解需求）
读 session.md 末尾 200 行
message 主人：任务已完成，但工作区内容繁多，建议人工审计，附简单归纳