构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能

06-01 1547阅读

文章目录

    • 1 总体目标 / Overall Goal
    • 2 数据管线 / Data Pipeline
    • 3 检索策略 / Retrieval Strategy
    • 4 服务切分 / Service Decomposition
    • 5 Agent & Prompt 设计 / Agent & Prompt
    • 6 核心功能 / Core Features
    • 7 评测与监控 / Evaluation & Monitoring
    • 8 面试亮点 / Interview Selling Points

      1 总体目标 / Overall Goal

      ZH:构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能。

      EN: Build a “paper-RAG” service where users upload PDF/LaTeX, then get sub-second search plus content-grounded QA, summaries, and citations.


      2 数据管线 / Data Pipeline

      阶段关键动作 (ZH)Key Steps (EN)
      采集S3/GCS 触发 RAGFlow ingestTrigger ragflow ingest on S3/GCS events
      解析① PDF→markdown ② LaTeX→AST→markdown;补 bib 引用Parse PDF→md; LaTeX→AST→md; keep bib entries
      分块400–800 tokens;公式单独切块并转为 $\LaTeX$ 字符串Chunk 400–800 tokens; isolate formulas
      元数据title, authors, year, doi, venue, sec_titleRich metadata for filters
      嵌入MCP-Embed service;BGE-Large-zh-v1.5 for CN/EN;可热插入 MiniLM、Llama-EmbedMCP-Embed; hot-swappable embedders
      索引Infinity DB:Dense + BM25,enable_hybrid=trueHybrid index in Infinity DB

      3 检索策略 / Retrieval Strategy

      ZH

      1. Stage-1 召回
        • BM25:速命中关键词(算法名、公式编号)。
        • Dense:Cosine k=40 捕获语义同义。
        • 融合:score = 0.3·BM25 + 0.7·Dense,动态调参。
        • 精排:BGE-Reranker-v2;如 GPU 紧张降为 MiniLM-L6。

      EN

      1. Recall via BM25 & dense cosine (k = 40).
      2. Score fusion with 0.3 / 0.7 weights (tunable).
      3. Re-rank top-50 using BGE-Reranker-v2 (fallback MiniLM).

      4 服务切分 / Service Decomposition

      微服务作用 (ZH)Latency SLAEndpoint
      MCP-Embed文本→向量≤ 20 ms/embed
      MCP-SearchHybrid 检索+精排≤ 60 ms/search
      MCP-Memory用户长/短期 KV≤ 5 ms/memory/{uid}
      MCP-Summarise论文长文摘要≤ 3 s (async)/summarise

      5 Agent & Prompt 设计 / Agent & Prompt

      SYSTEM: 你是论文助手,只能基于检索结果回答。
      TOOLS:
        search_papers(query:str, top_k:int=20)
        cite(paper_id:str, span:str)
      CONTEXT:
      {retrieved_chunks}
      QUESTION:
      {user_query}
      GUIDELINES:
      1. 如需更多资料务必调用 search_papers。
      2. 引用时用 (Author, Year) 并列出 span。
      
      • 多轮 Function Calling:模型看不到答案→触发 search_papers→检索结果以 function 消息注入→模型生成最终答复。
      • Memory 写回:把对话摘要、兴趣主题存 MCP-Memory,下轮预填。
      • Chunk 过长:先走 LLM map-reduce 压缩,保证

        6 核心功能 / Core Features

        1. 语义搜索 / Semantic Search
        2. 基于内容的问答 (RAG-QA)
        3. 自动摘要 & 中英对照翻译
        4. 引用追踪 (click-to-source spans)
        5. 相似论文推荐(Dense Only 模式)

        7 评测与监控 / Evaluation & Monitoring

        指标工具频率
        nDCG@10 (BEIR-SciDocs)nightly auto-eval每晚
        Faithfulness (QAG)Prompt-ed Llama-3 judge每晚
        Latency P95Prometheus + Grafana实时
        GPU 使用率NVML exporter实时

        8 面试亮点 / Interview Selling Points

        ZH

        • 端到端视角:能说清数据→检索→Agent→监控整链路。
        • 可替换组件:Embed/Rerank/LLM 全部热插拔,体现工程弹性。
        • 效能权衡:给出双检索、融合权重、GPU 回退策略,说明你懂成本。

          EN

          • E2E vision: articulate full pipeline from ingestion to monitoring.
          • Pluggability: swap embedders, rerankers and LLMs—design for change.
          • Cost-latency trade-offs: hybrid search, dynamic weights, GPU fallback.

            总结 / Wrap-up

            我会先用 RAGFlow 搭建混合索引,MCP 服务封装嵌入与检索,Agent 通过 Function Calling 串起工具,实现秒级论文检索及推理;再用监控与评测闭环调优。这样既满足现阶段功能,也给后续模型或业务升级留足弹性。

            构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能
            (图片来源网络,侵删)
            构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能
            (图片来源网络,侵删)
            构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能
            (图片来源网络,侵删)
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们。

目录[+]

取消
微信二维码
微信二维码
支付宝二维码