构建一个“论文检索 + 推理”知识库服务，支持用户上传 PDF/LATEX 源码后，秒级检索并获得基于内容的问答、摘要、引用等功能

06-01 1547阅读

文章目录

1 总体目标 / Overall Goal
2 数据管线 / Data Pipeline
3 检索策略 / Retrieval Strategy
4 服务切分 / Service Decomposition
5 Agent & Prompt 设计 / Agent & Prompt
6 核心功能 / Core Features
7 评测与监控 / Evaluation & Monitoring

8 面试亮点 / Interview Selling Points

1 总体目标 / Overall Goal

ZH：构建一个“论文检索 + 推理”知识库服务，支持用户上传 PDF/LATEX 源码后，秒级检索并获得基于内容的问答、摘要、引用等功能。

EN: Build a “paper-RAG” service where users upload PDF/LaTeX, then get sub-second search plus content-grounded QA, summaries, and citations.

2 数据管线 / Data Pipeline

阶段	关键动作 (ZH)	Key Steps (EN)
采集	S3/GCS 触发 RAGFlow ingest	Trigger ragflow ingest on S3/GCS events
解析	① PDF→markdown ② LaTeX→AST→markdown；补 bib 引用	Parse PDF→md; LaTeX→AST→md; keep bib entries
分块	400–800 tokens；公式单独切块并转为 $\LaTeX$ 字符串	Chunk 400–800 tokens; isolate formulas
元数据	title, authors, year, doi, venue, sec_title	Rich metadata for filters
嵌入	MCP-Embed service；BGE-Large-zh-v1.5 for CN/EN；可热插入 MiniLM、Llama-Embed	MCP-Embed; hot-swappable embedders
索引	Infinity DB：Dense + BM25，enable_hybrid=true	Hybrid index in Infinity DB

3 检索策略 / Retrieval Strategy

Stage-1 召回
- BM25：速命中关键词（算法名、公式编号）。
- Dense：Cosine k=40 捕获语义同义。
- 融合：score = 0.3·BM25 + 0.7·Dense，动态调参。
- 精排：BGE-Reranker-v2；如 GPU 紧张降为 MiniLM-L6。

Recall via BM25 & dense cosine (k = 40).
Score fusion with 0.3 / 0.7 weights (tunable).
Re-rank top-50 using BGE-Reranker-v2 (fallback MiniLM).

4 服务切分 / Service Decomposition

微服务	作用 (ZH)	Latency SLA	Endpoint
MCP-Embed	文本→向量	≤ 20 ms	/embed
MCP-Search	Hybrid 检索+精排	≤ 60 ms	/search
MCP-Memory	用户长/短期 KV	≤ 5 ms	/memory/{uid}
MCP-Summarise	论文长文摘要	≤ 3 s (async)	/summarise

5 Agent & Prompt 设计 / Agent & Prompt

SYSTEM: 你是论文助手，只能基于检索结果回答。
TOOLS:
  search_papers(query:str, top_k:int=20)
  cite(paper_id:str, span:str)
CONTEXT:
{retrieved_chunks}
QUESTION:
{user_query}
GUIDELINES:
1. 如需更多资料务必调用 search_papers。
2. 引用时用 (Author, Year) 并列出 span。

多轮 Function Calling：模型看不到答案→触发 search_papers→检索结果以 function 消息注入→模型生成最终答复。
Memory 写回：把对话摘要、兴趣主题存 MCP-Memory，下轮预填。
Chunk 过长：先走 LLM map-reduce 压缩，保证
6 核心功能 / Core Features
1. 语义搜索 / Semantic Search
2. 基于内容的问答 (RAG-QA)
3. 自动摘要 & 中英对照翻译
4. 引用追踪 (click-to-source spans)
5. 相似论文推荐（Dense Only 模式）
7 评测与监控 / Evaluation & Monitoring

指标工具频率
nDCG@10 (BEIR-SciDocs) nightly auto-eval 每晚
Faithfulness (QAG) Prompt-ed Llama-3 judge 每晚
Latency P95 Prometheus + Grafana 实时
GPU 使用率 NVML exporter 实时
8 面试亮点 / Interview Selling Points

ZH
- 端到端视角：能说清数据→检索→Agent→监控整链路。
- 可替换组件：Embed/Rerank/LLM 全部热插拔，体现工程弹性。
- 效能权衡：给出双检索、融合权重、GPU 回退策略，说明你懂成本。
  EN
  - E2E vision: articulate full pipeline from ingestion to monitoring.
  - Pluggability: swap embedders, rerankers and LLMs—design for change.
  - Cost-latency trade-offs: hybrid search, dynamic weights, GPU fallback.
    总结 / Wrap-up
    我会先用 RAGFlow 搭建混合索引，MCP 服务封装嵌入与检索，Agent 通过 Function Calling 串起工具，实现秒级论文检索及推理；再用监控与评测闭环调优。这样既满足现阶段功能，也给后续模型或业务升级留足弹性。
    
    （图片来源网络，侵删）
    （图片来源网络，侵删）
    （图片来源网络，侵删）

指标	工具	频率
nDCG@10 (BEIR-SciDocs)	nightly auto-eval	每晚
Faithfulness (QAG)	Prompt-ed Llama-3 judge	每晚
Latency P95	Prometheus + Grafana	实时
GPU 使用率	NVML exporter	实时

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们。