Task task-qwen3-optimize-46278 — Qwen3-Embedding 优化方案调研与测试

文件路径

task.md（本文件，创建后不再修改）：/root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/task.md
session.md（执行日志，只追加）：/root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/session.md

原始需求

在已选定 Qwen3-Embedding-0.6B 作为 RS1000 主力 embedding 模型的基础上，深入调查可用的优化方案，选定最优组合，在 RS1000 上实际测试，并与基准数据进行对比评估（性能和效率变化）。

背景数据（Baseline，RS1000 上 500 条语料）

吞吐量：15.7 条/秒
加载时间：20.9 秒
RSS 内存：1972 MB
全量索引时间（21680 条）：约 20.5 分钟
平均 Top1 相似度：0.886（40 条查询）
P95 延迟：784 ms，中位延迟：59 ms

RS1000 硬件信息

CPU：AMD EPYC 9634（84 核）
支持：AVX-512、BF16 硬件加速
SSH：ssh -i /root/.openclaw/workspace/memory/secrets/aichan_ed25519 -p 31415 aichan@152.53.195.69
权限：sudo 可用
测试语料：/home/aichan/docs/embedding-test/task-embedding-test-54151/corpus/embedding-test-corpus.txt（21680 条）

调研维度（至少覆盖以下方向）

量化（Quantization）：INT8 / FP16 量化，通过 ONNX Runtime 或 optimum 实现
ONNX 后端：fastembed 的 ONNX 模式 vs PyTorch 模式对比
批处理优化：最优 batch_size 搜索（当前未知，建议测试 8/16/32/64/128）
线程/并发优化：OMP_NUM_THREADS / torch.set_num_threads 调优（84 核下的最优线程数）
其他可行方向：如 torch.compile、OpenVINO backend、ONNX Runtime 优化 flags 等

执行链

researcher → 爱衣质检

各 Agent 职责

Ai.Res（session key: `agent:researcher:main`）

任务：
1. 调研 Qwen3-Embedding-0.6B 在 CPU（AMD EPYC AVX-512 + BF16）上所有可行的优化方案
2. 根据调研结论，选定 2-4 个优先测试的优化组合（性价比最高的方案优先）
3. 在 RS1000 上实际安装并测试选定方案（SSH 到 RS1000 执行）
4. 使用相同语料（至少 500 条）和相同评估指标（吞吐量、内存、延迟、检索质量）进行测试
5. 与上方 Baseline 数据进行对比，量化提升幅度
6. 输出优化方案推荐报告，写入 session.md

注意：
- 优先使用已安装的工具（fastembed、torch、ONNX Runtime），如需额外安装请记录
- 测试脚本可参考或复用 /home/aichan/docs/embedding-test/task-embedding-test-54151/scripts/
- 报告需包含：各方案实测数据表格、推荐结论、部署建议

开始时：
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher receive "Qwen3-Embedding 优化调研" task-qwen3-optimize-46278

完成后：
1. 将执行日志追加到 session.md
2. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh researcher handoff "Qwen3-Embedding 优化调研" main task-qwen3-optimize-46278
3. sessions_send 通知爱衣（agent:main:main，必须传 timeoutSeconds=0，禁止省略）：
task_id=task-qwen3-optimize-46278 task=/root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/task.md

⚠️ 爱衣质检 SOP（收到最终通知后执行）

Step 1：评估工作区大小

du -sb /root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/

超过 80KB → 跳至「超限处理」
未超过 80KB → 继续 Step 2

Step 2：读取 session.md

wc -l /root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/session.md

若行数 N > 0，read session.md 全文。

Step 3：质检要点

通用检查（每次必须）：
- 产出是否符合原始需求？
- 执行过程是否有明显问题？
- Agent 间是否有未解决的分歧？

任务特定检查：
- 是否覆盖了调研维度中的主要方向（量化、ONNX、batch、线程）？
- 是否在 RS1000 上进行了实际测试（不能只有理论分析）？
- 对比数据是否与 Baseline 使用相同条件（同语料量、同指标）？
- 推荐结论是否有数据支撑？是否给出了具体部署建议？

Step 4：输出结论

通过 →

更新 handoff 文件 /root/.openclaw/workspace/memory/docs/handoff-embedding-research.md，将优化方案测试结论补充进去
发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main done "Qwen3-Embedding 优化调研" task-qwen3-optimize-46278
用 message 工具发送给主人（telegram, 92763607），归纳优化方案结论和数据对比
⚠️ 必须调用 message 工具，不能只在主对话回复

不通过（rejectCount == 0） →
1. 分析问题根因，设计新执行链
2. 创建新的 task.md（task_id 加后缀 -retry1），session.md 独立
3. 在原 session.md 末尾追加一行 rejectCount=1
4. sessions_send 给新执行链起始 Agent
5. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main retry "Qwen3-Embedding 优化调研" "<新执行链（label格式）>" <起始role> 1 task-qwen3-optimize-46278

rejectCount >= 1（第二次仍失败） →
1. 发工作日志：
bash /root/.openclaw/workspace/scripts/log-to-channel.sh main fail "Qwen3-Embedding 优化调研" task-qwen3-optimize-46278
2. message 主人，归纳问题和两次失败原因，请主人裁决

超限处理（工作区 > 80KB）

仅读 task.md（了解需求）
读 session.md 末尾 200 行：
bash wc -l /root/.openclaw/workspace/tasks/task-qwen3-optimize-46278/session.md # 获取总行数 N # 然后 read offset=max(1, N-200) limit=200
message 主人：任务已完成，但工作区内容繁多（XXkB），建议人工审计，附简单归纳