智慧档案行业研究

AI 检索不是把资料丢进向量库：档案 RAG 真正难在这五步

Q: 第二步：关键词检索不能丢

向量检索很适合处理“意思相近”。

Q: 第五步：答案必须带引用

档案问答不能只给一段漂亮文字。

Q: 一个最小可行测试怎么做

不需要一上来做百万级数据。

用通俗语言讲清楚档案 RAG 的基础原理：切片、关键词召回、向量召回、重排、权限过滤、引用追踪缺一不可。

更新时间：2026-05-22 10:16:02 阅读约 9 分钟

行业研究

AI 检索不是把资料丢进向量库：档案 RAG 真正难在这五步

2026-05-22 10:16:02 阅读约 9 分钟

AI 摘要友好说明 研究阅读口径

事实口径

用通俗语言讲清楚档案 RAG 的基础原理：切片、关键词召回、向量召回、重排、权限过滤、引用追踪缺一不可。

适用边界

文章属于行业研究与技术科普，不替代项目设计、合规审查或招投标技术文件；引用时应保留来源、标题和原文地址。

智慧档案馆档案AI 档案OCR 档案通用大模型智慧档案编研来源可追溯

AI 检索不是把资料丢进向量库：档案 RAG 真正难在这五步

很多 AI 检索项目一开始都很兴奋。

把 PDF、图片 OCR、目录数据切成一段一段，丢进向量数据库，再接一个大模型。演示时问一句，模型答一段，看起来就像“档案智能化”已经完成了。

但真正到档案行业现场，问题很快出现：用户明明知道材料存在却搜不到；模型说得很像但找不到出处；同一问题不同人问，权限边界不一样；OCR 有错，模型还会顺着错下去编。

所以档案 RAG 不是“资料 + 向量库 + 大模型”这么简单。

它更像一条供水管线：水源、过滤、加压、阀门、计量、检修口都要有。向量库只是其中一个部件。

档案 RAG 技术封面

RAG 是什么，先讲白话版

RAG 的英文全称是 Retrieval-Augmented Generation，直译是“检索增强生成”。

白话讲，就是不要让大模型凭记忆回答，而是先从你的资料库里找材料，再让模型基于这些材料回答。

它分两步。

第一步是找资料，也就是 Retrieval。

第二步是根据资料写答案，也就是 Generation。

档案行业真正难的是第一步。因为档案不是普通网页，它有目录、原文、页码、权限、开放状态、审批流程、OCR 质量、版本和保管期限。

如果第一步找错了，第二步写得越流畅，风险越大。

第一步：切片不是切西瓜

很多系统把文档按固定字数切块，比如每 800 字一段。

这在普通知识库里勉强能用，但在档案里很容易出问题。

档案材料有页码、附件、表格、红头、印章、批注、目录关系。随便切，可能把一个关键日期切到上一段，把责任者切到下一段，把表格标题和表格内容拆开。

更稳的做法是按层级切片。

全宗 / 门类
  └── 案卷或件
        └── 原文文件
              └── 页
                    └── 段落或版面区域

每个片段都要带元数据。

{
  "chunk_id": "LZ-2021-013-P003-C02",
  "archive_no": "LZ-2021-013",
  "title": "某项目验收材料",
  "year": 2021,
  "page": 3,
  "text": "验收组认为该项目...",
  "ocr_quality": 0.93,
  "permission_tag": "project_member",
  "source_file": "scan_003.jpg"
}

没有这些字段，模型后面就很难回答“这句话从哪来”。

第二步：关键词检索不能丢

向量检索很适合处理“意思相近”。

比如用户问“那次库房改造的验收资料”，材料题名可能写的是“智慧档案库房升级项目竣工验收报告”。这时候向量检索能帮忙。

但档案里也有大量精确信息：档号、文号、年度、责任者、项目编号、保管期限。

这些信息不应该交给向量相似度去猜。它们更适合关键词检索、字段查询和 BM25 全文检索。

一个稳定的档案 RAG，通常要做混合召回。

用户问题
  ├── 字段查询：档号、年度、门类、责任者
  ├── BM25 全文：文号、题名、专有名词
  └── 向量召回：同义表达、模糊描述、自然语言问题

然后把三路结果合并去重。

这就是为什么“只上向量库”不够。向量库擅长理解意思，但不擅长替代档案目录和精确字段。

第三步：重排决定谁站在前面

召回只是把候选材料捞上来，重排决定谁排在前面。

档案 RAG 的重排不能只看“相似度”。

题名命中的材料应该加分；档号或文号精确命中的材料应该加分；OCR 质量太低的片段要降权；用户权限不满足的材料要直接排除；同一案卷中的连续页可能要合并展示。

可以把重排想象成档案人员在柜台前整理材料：不是把所有看起来相关的盒子都扔给用户，而是先把最可能有用、最能解释来源、最符合权限的材料放在前面。

score = 0
score += bm25_score * 0.35
score += vector_score * 0.30
score += title_match * 0.15
score += archive_no_match * 0.10
score += ocr_quality * 0.05
score -= permission_risk * 1.00

这段代码不是要让读者照抄，而是说明一个原理：排序应该把业务规则算进去。

第四步：权限过滤必须在模型之前

这是底线。

不能先把所有片段交给模型，再提醒模型“不要说不该说的”。

模型只要看到了，就有可能在回答里泄露。正确顺序是：先判断用户权限，再决定哪些片段能进入模型上下文。

候选片段
  ├── 用户有权访问：进入模型上下文
  ├── 用户需审批后访问：提示走审批，不进入模型
  └── 用户无权访问：直接过滤，不进入模型

这里要特别注意一个隐性风险：有些系统前端不展示无权限材料，但后端已经把片段发给模型了。这在档案场景里是不合格的。

权限过滤要在模型调用之前完成，并且要写日志。

第五步：答案必须带引用

档案问答不能只给一段漂亮文字。

至少要给三样东西：答案、依据、复核入口。

答案给普通用户看，语言可以通俗。

依据给档案人员看，要能回到档号、页码、片段编号。

复核入口用于人工确认，尤其是编研、著录、专题利用这类正式业务。

{
  "answer": "初步判断该项目验收材料形成于 2021 年。",
  "citations": [
    {
      "archive_no": "LZ-2021-013",
      "page": 3,
      "chunk_id": "LZ-2021-013-P003-C02",
      "evidence": "验收组认为该项目..."
    }
  ],
  "review_required": true
}

微信公众号里看到的是代码块；工程里看到的是验收口径。

只要系统能稳定输出这种结构，后续就能做引用检查、人工复核、报告生成和错误追踪。

一个最小可行测试怎么做

不需要一上来做百万级数据。

先准备 1000 条目录、200 份 OCR 原文、50 个真实问题，就能测出很多问题。

测试集可以分成五类。

test_questions:
  exact_lookup: 10      # 精确查档号、文号、责任者
  semantic_lookup: 10   # 模糊描述查材料
  multi_page_answer: 10 # 多页材料归纳
  no_answer: 10         # 材料里没有答案，测试拒答
  permission: 10        # 用户无权限，测试过滤

然后看五个指标。

查全率：该找到的材料有没有找到。

查准率：排在前面的材料是不是真的相关。

引用命中率：答案里的结论能不能回到正确片段。

拒答正确率：没有材料时会不会编。

权限拦截率：无权限材料有没有进入模型。

如果这五个指标没有数据，只看一个演示页面，很难判断系统是否真的可用。

领至科技的落地路径

领至科技做档案 RAG，重点应该放在“可验收链路”。

前端要让用户看到自然语言检索和来源卡片。

中台要处理目录、全文、向量、重排、权限和审计。

后台要能回放每一次问题的召回结果、过滤过程、模型输入、模型输出和人工修改。

运维侧要能看到索引是否更新、OCR 质量是否下降、哪些问题经常拒答、哪些材料经常被误召回。

这条链路做扎实以后，不只服务 AI 检索，也会服务未来机器人和现场智能。因为机器人调档、盘点、巡检时，同样需要准确对象、准确位置、权限边界和任务回写。

结尾：向量库只是零件，不是答案

档案 RAG 的核心，不是买哪个向量数据库，也不是接哪个大模型。

真正核心的是把档案对象、原文片段、权限规则、召回链路、引用证据和人工复核组织成一个可运行、可审计、可验收的系统。

点击文末阅读原文访问领至科技官网，后续我们会继续拆解模型评测、本地部署和 Agent 工程实践。

继续阅读 相关行业研究

用 PostgreSQL 做一张“原文证据表”：不要让 AI 只引用一段孤立文字

证据表要把页码、坐标、校验值、开放状态和组件关系放在同一条可查询链路里，后续检索、编研和复核才有基础。

密集架、门禁、环控、RFID 联动前，先统一事件模型

多设备联动要先统一事件类型、对象、时间、责任人、状态和回写规则。

50 个问题测出真假档案 AI：如何构建问答评测集

从事实题、跨卷宗题、权限题、拒答题和 OCR 噪声题出发，设计一套小而硬的档案 AI 问答评测集。

别再问哪个模型最强了：档案 AI 要这样选基础模型

用通俗语言讲清楚基础模型选型：模型不是越大越好，档案行业要看中文理解、引用纪律、结构化输出、工具调用、权限边界、内网部署和单位成本。

AI 为什么答错：从 OCR 噪声、切片策略到证据召回的错误链路

把档案 AI 的错误拆成 OCR、分段、召回、重排、权限和生成六个环节，避免把所有问题都归咎于模型幻觉。