task-leb-accel-research-61423 / session.md

任务 ID: task-leb-accel-research-61423 | 文件: session.md | 最后修改: 2026-02-27 11:00:49

Session Log — task-leb-accel-research-61423

任务概述

调研 Intel Xeon E3-1270 v6（AVX2，无 AVX-512/BF16）上 embedding 模型推理加速方案。

去重检查

第一轮搜索：ONNX Runtime + INT8 量化

搜索结果汇总

来源1：FastEmbed 官方文档

URL: https://qdrant.github.io/fastembed/
- FastEmbed 使用 ONNX Runtime 作为推理后端
- 使用量化模型权重（quantized model weights）
- 明确声明"faster than PyTorch"，专为 CPU 推理设计
- 支持数据并行（data parallelism）处理大批量数据集
- 无需 GPU，无需下载 GB 级 PyTorch 依赖

来源2：ONNX Runtime 量化文档

URL: https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html
- 支持 INT8 动态量化和静态量化
- 动态量化：运行时计算 scale/zero_point，精度更高但有额外开销
- 静态量化：需要校准数据集，推理时无额外开销，速度更快
- Transformer 模型推荐使用 symbolic shape inference 预处理
- 支持 QOperator 和 QDQ 两种量化格式

来源3：ONNX Runtime 线程管理文档

URL: https://onnxruntime.ai/docs/performance/tune-performance/threading.html
- 默认 intra_op_num_threads=0 → 等于物理核心数（E3-1270 v6 = 4核）
- 支持线程亲和性设置（thread affinity）
- 支持 ORT_SEQUENTIAL / ORT_PARALLEL 执行模式
- 默认启用 thread spinning（更快但耗 CPU）

来源4：OpenVINO 系统要求

URL: https://docs.openvino.ai/2024/about-openvino/release-notes-openvino/system-requirements.html
- 明确支持"6th - 14th generation Intel Core processors"
- E3-1270 v6 = Kaby Lake = 第7代 → 在支持范围内
- 支持 Ubuntu 20.04/22.04/24.04

来源5：Intel Extension for PyTorch 性能调优指南

URL: https://intel.github.io/intel-extension-for-pytorch/cpu/latest/tutorials/performance_tuning/tuning_guide.html
- numactl 对单 socket 机器（E3-1270 v6 是单 socket）影响有限
- 推荐使用 jemalloc/tcmalloc 替代默认内存分配器
- OMP_NUM_THREADS 设置为物理核心数（4）
- 避免使用超线程（HT）逻辑核心

来源6：HuggingFace BERT CPU Scaling Part 1

URL: https://huggingface.co/blog/bert-cpu-scaling-part-1
- 基准测试在 AWS c5.metal（Intel Xeon Platinum 8275，AVX512+VNNI）上
- ONNX Runtime 是 CPU 推理的强候选
- 量化（INT8）在有 VNNI 的 CPU 上效果最显著
- 无 VNNI 的 CPU（如 AVX2-only）INT8 加速效果有限

来源7：HuggingFace BERT CPU Scaling Part 2

URL: https://huggingface.co/blog/bert-cpu-scaling-part-2
- Ice Lake（AVX512+VNNI）比 Cascade Lake 快 75%
- 软件优化：jemalloc + Intel OpenMP + oneDNN
- 关键结论：AVX512 VNNI 是 INT8 量化加速的核心硬件依赖

来源8：llama-cpp-python 文档

URL: https://llama-cpp-python.readthedocs.io/en/latest/
- 支持 OpenBLAS 后端（CPU 矩阵运算加速）
- 支持 SYCL（Intel oneAPI）后端
- 支持 embedding 推理（llama.cpp 有 --embedding 模式）
- AVX2 编译支持，无需 AVX512

来源9：Optimum Intel 博客

URL: https://huggingface.co/blog/intel
- Intel Neural Compressor (INC) 支持量化、剪枝、知识蒸馏
- Optimum Intel 提供统一 API
- 主要针对 Xeon Scalable（AVX512+VNNI）优化

报告已生成

路径：/root/.openclaw/workspace-researcher/reports/leb-cpu-embedding-acceleration.md