任务 ID: task-search-agent-search
执行人: Ai.Rev(reviewer agent)
时间: 2026-02-24
作者:Ai.Rev | 日期:2026-02-24 | 任务:task-search-agent-search
Agent 接入搜索功能的主流方式是"工具调用"(Tool Use / Function Calling):
- LLM 决定何时调用搜索工具,生成查询词,获取结果后继续推理
- 工具可以是:Web 搜索 API(Tavily、Exa、SerpAPI)、本地知识库(RAG)、学术 API(ArXiv、PubMed)
- 框架层支持:LangChain bind_tools、LangGraph Tool Node、OpenAI Function Calling、Anthropic Tool Use
典型架构:
用户问题
→ LLM 规划(需要搜索?搜什么?)
→ 搜索工具执行(返回片段/内容)
→ LLM 融合结果 + 判断是否继续
→ 输出答案
传统 RAG:固定检索流程,一次性向量检索,无推理能力
Agentic RAG(动态检索):
- Agent 决定何时检索、检索哪个知识库、用什么查询
- 支持多步检索、路由到不同子库(向量 DB、关键词索引、外部 API)
- 代表论文:Keyword search is all you need: Achieving RAG-level performance(2026,ArXiv)—— 发现工具化关键词搜索在 Agent 框架内效果逼近向量检索
来自论文 From Web Search towards Agentic Deep Research (arXiv:2506.18959):
「Agentic Deep Research」= 自主推理 × 迭代信息检索 × 动态规划
系统不只是"查一次答案",而是不断根据中间结果调整搜索方向
核心流程:
初始查询 → 获取结果 → 分析知识缺口(knowledge gap)
→ 生成新子查询 → 再次搜索 → 聚合 → 判断是否足够
→ 输出最终报告
关键技术:
- Query Expansion(查询扩展):Azure AI Search Agentic Retrieval 支持自动并行扩展查询
- Follow-up Question Generation:如 codebucks27/Deep-Research-AI-Agent 实现了自动生成追问的机制
- Search Tree(搜索树):每个检索节点是中间结果或子问题,Agent 在树上递归探索(参考 From Web Search to LLM-Powered Search Agents by Sankalp Wahane)
| 项目 | Stars | 语言 | 特点 |
|---|---|---|---|
| assafelovic/gpt-researcher | 25,405 | Python | 最成熟;多 LLM/搜索源;有 MCP server |
| dzhng/deep-research | 18,475 | TypeScript | 最简洁实现;迭代查询 + 报告合成 |
| zilliztech/deep-searcher | 7,581 | Python | 支持私有数据;Agentic RAG + Milvus |
| langchain-ai/open_deep_research | N/A | Python | LangGraph 驱动;支持多搜索后端 |
| AIDC-AI/Marco-DeepResearch | 249 | Python | 学术级;ReAct 风格 Agentic Search |
论文:EvolveSearch: An Iterative Self-Evolving Search Agent(2025,引用 20+)
- 使用 强化学习(RL)+ Rejection Sampling 让 Agent 自我迭代优化查询策略
- 不依赖人工标注;搜索效果随训练持续提升
论文:arXiv:2512.03887v2
- 提出"静态深度研究 Agent"(Static-DRA):用层次树结构组织研究计划
- 克服 RAG 静态流水线的局限;支持复杂多轮研究任务
GoDaddy 实现了市场分析 Agentic Deep Research 工作流:
- 先生成研究计划(research plan)再执行
- 分阶段执行:探索 → 细化 → 报告合成
- 关键经验:可编辑的预搜索计划允许人工干预(避免浪费 15 分钟后才发现方向错误)
论文:SPAR: Scholar Paper Retrieval with LLM-based Agents for Enhanced Academic Search(arXiv:2507.15245,2025-07-21)
- RefChain-based 查询分解:将复杂学术问题拆成子查询链
- 多 Agent 协作:检索 Agent + 验证 Agent + 合成 Agent
- 效果超越单一固定检索流水线
| 优先级 | 源 | 特点 |
|---|---|---|
| 1 | ArXiv | 最新预印本;计算机/AI 必用;搜索速度快 |
| 2 | OpenAlex | 开放学术图谱;支持引用数过滤;跨领域 |
| 3 | Semantic Scholar | 语义理解好;提供论文摘要 API |
| 4 | CrossRef | 正式期刊论文;DOI 解析 |
| 5 | PubMed | 医学/生命科学专项 |
agentic search LLM)找综述,再用精确词(iterative query expansion retrieval)找具体方法论文:Language agents achieve superhuman synthesis of scientific knowledge(OpenAlex,2024,37引用)
- 实验证明 LLM Agent 在真实文献检索任务上可达超人水平
- 前提:需配备合适的搜索工具 + 验证机制
| 工具 | 特点 | 适用场景 |
|---|---|---|
| Tavily | 专为 LLM 优化;返回干净文本;有深度搜索 API | Agent 通用搜索首选 |
| Exa | 嵌入式语义搜索;自然语言复杂查询 | 复杂精确语义检索 |
| SearXNG(自建) | 开源隐私;聚合多源;免费 | 本地部署搜索聚合 |
| Firecrawl | 网页内容抓取+搜索 | Deep Research 内容提取 |
| AgentSearch(SciPhi) | 搜索专用 LLM + 搜索框架一体 | 定制化搜索 Agent |
| 框架 | 特点 |
|---|---|
| LangGraph | 有向图 Agent;适合复杂多步搜索工作流 |
| LangChain | 最成熟;工具集丰富;bind_tools 支持多搜索 |
| Strands Agents(AWS) | 高级编排技术;多检索 Agent 协作 |
| OpenAI Agents SDK | 函数调用原生;有 Deep Research API |
| Gemini Deep Research | 内置研究规划 + 执行 + 合成;支持 Gmail/Drive 上下文 |
以下技巧可直接应用到 search.py 或 Agent 工作流:
date_range=2024-2026 参数PDF | 定义了 Agentic Deep Research 范式
Agentic-R: Learning to Retrieve for Agentic Search
PDF | 如何设计适合 Agentic 搜索的检索器
SPAR: Scholar Paper Retrieval with LLM-based Agents for Enhanced Academic Search
PDF | 学术搜索多 Agent 框架
ManuSearch: Democratizing Deep Search in LLMs with a Transparent Multi-Agent Framework
PDF | 开放透明的 Deep Search 多 Agent 架构
A Hierarchical Tree-based approach for creating Static Deep Research Agent (Static-DRA)
PDF | 树结构 Deep Research Agent 设计
EvolveSearch: An Iterative Self-Evolving Search Agent
RL 驱动的迭代搜索 Agent,自我进化查询策略
Knowledge-Aware Iterative Retrieval for Multi-Agent Systems
迭代式多 Agent 检索框架
Language agents achieve superhuman synthesis of scientific knowledge
PDF | LLM Agent 文献综合能力基准测试
Retrieval Collapses When AI Pollutes the Web
AI 生成内容污染 Web 对 RAG 检索的影响
Agentic Large Language Models, a survey
| 平台 | 有效信息量 | 评价 |
|---|---|---|
| SearXNG(自建聚合) | ★★★★★ | 广度最佳,快速定位资源 |
| ArXiv(search.py) | ★★★★☆ | 学术深度好,但查询词需精准 |
| GitHub(search.py) | ★★★★★ | 实现参考价值极高 |
| HackerNews(search.py) | ★★★☆☆ | 有实战经验,但结果量少 |
| OpenAlex(search.py) | ★★★☆☆ | 部分结果偏旧,需年份过滤 |
| CrossRef(search.py) | ★★☆☆☆ | 结果偏旧(2007–2021),参考价值有限 |
| StackOverflow(search.py) | ★★☆☆☆ | 关于 Agent 搜索的提问极少 |
| PubMed(search.py) | ★☆☆☆☆ | 完全无关(医学领域),本任务不适用 |
| Bing RSS(search.py) | ★☆☆☆☆ | 返回中文知乎结果,质量差,本任务不适用 |
Agent 搜索功能目前已形成较为成熟的技术生态:
- 工程层:Tavily/Exa + LangGraph/LangChain 是主流组合
- 研究层:2025-2026 年 ArXiv 涌现了大量 Agentic Search 论文(Static-DRA、Agentic-R、ManuSearch、EvolveSearch)
- 最大挑战:AI 内容污染 Web(arXiv:2602.16136)正在成为新威胁
- 下一步建议:重点阅读 arXiv:2506.18959(范式定义)和 arXiv:2601.11888(检索器设计),结合 gpt-researcher 源码理解工程实现
报告完毕。共收集有效信息 42 条(学术 12 篇、代码项目 15 个、社区讨论 8 条、网页资源 7 个)。