任务 ID: task-leb-accel-research-61423  |  文件: session.md  |  最后修改: 2026-02-27 11:00:49

Session Log — task-leb-accel-research-61423

开始时间:2026-02-27 10:55 CST

任务概述

调研 Intel Xeon E3-1270 v6(AVX2,无 AVX-512/BF16)上 embedding 模型推理加速方案。


去重检查

去重检查完成:无相关已有报告,开始全新调研

第一轮搜索:ONNX Runtime + INT8 量化

搜索结果汇总

来源1:FastEmbed 官方文档

URL: https://qdrant.github.io/fastembed/
- FastEmbed 使用 ONNX Runtime 作为推理后端
- 使用量化模型权重(quantized model weights)
- 明确声明"faster than PyTorch",专为 CPU 推理设计
- 支持数据并行(data parallelism)处理大批量数据集
- 无需 GPU,无需下载 GB 级 PyTorch 依赖

来源2:ONNX Runtime 量化文档

URL: https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html
- 支持 INT8 动态量化和静态量化
- 动态量化:运行时计算 scale/zero_point,精度更高但有额外开销
- 静态量化:需要校准数据集,推理时无额外开销,速度更快
- Transformer 模型推荐使用 symbolic shape inference 预处理
- 支持 QOperator 和 QDQ 两种量化格式

来源3:ONNX Runtime 线程管理文档

URL: https://onnxruntime.ai/docs/performance/tune-performance/threading.html
- 默认 intra_op_num_threads=0 → 等于物理核心数(E3-1270 v6 = 4核)
- 支持线程亲和性设置(thread affinity)
- 支持 ORT_SEQUENTIAL / ORT_PARALLEL 执行模式
- 默认启用 thread spinning(更快但耗 CPU)

来源4:OpenVINO 系统要求

URL: https://docs.openvino.ai/2024/about-openvino/release-notes-openvino/system-requirements.html
- 明确支持"6th - 14th generation Intel Core processors"
- E3-1270 v6 = Kaby Lake = 第7代 → 在支持范围内
- 支持 Ubuntu 20.04/22.04/24.04

来源5:Intel Extension for PyTorch 性能调优指南

URL: https://intel.github.io/intel-extension-for-pytorch/cpu/latest/tutorials/performance_tuning/tuning_guide.html
- numactl 对单 socket 机器(E3-1270 v6 是单 socket)影响有限
- 推荐使用 jemalloc/tcmalloc 替代默认内存分配器
- OMP_NUM_THREADS 设置为物理核心数(4)
- 避免使用超线程(HT)逻辑核心

来源6:HuggingFace BERT CPU Scaling Part 1

URL: https://huggingface.co/blog/bert-cpu-scaling-part-1
- 基准测试在 AWS c5.metal(Intel Xeon Platinum 8275,AVX512+VNNI)上
- ONNX Runtime 是 CPU 推理的强候选
- 量化(INT8)在有 VNNI 的 CPU 上效果最显著
- 无 VNNI 的 CPU(如 AVX2-only)INT8 加速效果有限

来源7:HuggingFace BERT CPU Scaling Part 2

URL: https://huggingface.co/blog/bert-cpu-scaling-part-2
- Ice Lake(AVX512+VNNI)比 Cascade Lake 快 75%
- 软件优化:jemalloc + Intel OpenMP + oneDNN
- 关键结论:AVX512 VNNI 是 INT8 量化加速的核心硬件依赖

来源8:llama-cpp-python 文档

URL: https://llama-cpp-python.readthedocs.io/en/latest/
- 支持 OpenBLAS 后端(CPU 矩阵运算加速)
- 支持 SYCL(Intel oneAPI)后端
- 支持 embedding 推理(llama.cpp 有 --embedding 模式)
- AVX2 编译支持,无需 AVX512

来源9:Optimum Intel 博客

URL: https://huggingface.co/blog/intel
- Intel Neural Compressor (INC) 支持量化、剪枝、知识蒸馏
- Optimum Intel 提供统一 API
- 主要针对 Xeon Scalable(AVX512+VNNI)优化

报告已生成

路径:/root/.openclaw/workspace-researcher/reports/leb-cpu-embedding-acceleration.md

核心结论摘要

完成时间:2026-02-27 11:10 CST