智慧档案行业研究

AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路

把档案 AI 的错误拆成 OCR、分段、召回、重排、权限和生成六个环节,避免把所有问题都归咎于模型幻觉。

更新时间:2026-05-27 11:39:56 阅读约 7 分钟
AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路
行业研究

AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路

AI 摘要友好说明 研究阅读口径
事实口径

把档案 AI 的错误拆成 OCR、分段、召回、重排、权限和生成六个环节,避免把所有问题都归咎于模型幻觉。

适用边界

文章属于行业研究与技术科普,不替代项目设计、合规审查或招投标技术文件;引用时应保留来源、标题和原文地址。

智慧档案馆 档案AI 档案OCR 档案通用大模型 智慧档案编研 来源可追溯

AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路

AI 答错并不总是模型胡说,很多错误在模型开口之前已经发生。我们要沿着链路倒查,而不是只换一个更贵的模型。

常见误判是:答案不准,说明模型不够强。于是项目组不断换模型、调提示词、加温度参数,却没有看 OCR 文本是不是错了,切片是不是把上下文切断了,召回是不是拿错材料,权限过滤是不是在错误的位置执行。档案行业最怕这种黑箱式排错,因为它不能告诉用户错误来自哪里。

AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路封面

先把问题拆成工程链路

档案 AI 错误链可以拆成六层。第一层是影像和 OCR 噪声,第二层是切片与页码映射,第三层是关键词或向量召回,第四层是重排与证据选择,第五层是权限和开放状态过滤,第六层才是模型生成。每一层都要留下可复测数据,否则上线后只剩一句“模型不稳定”。

AI 为什么答错:从 OCR 噪声、切片策略到证据召回的错误链路链路图

错误归因日志示例

下面这个样例不是为了限定数据库设计,而是说明每个 AI 任务都应该留下可追溯对象。字段名称可以按系统调整,但对象关系不能丢。

{
  "query_id": "Q-20260522-001",
  "expected_archive": "QZ-2023-021",
  "retrieved_top_k": ["QZ-2023-120", "QZ-2022-019"],
  "failure_stage": "retrieval",
  "ocr_quality": "low",
  "permission_applied_before_llm": true,
  "human_label": "召回遗漏核心材料"
}

现场小试怎么跑

硬核文章不能只停在概念层。真正做试点时,建议把范围压小,但记录做细。比如先选一个门类、一个年度或一个固定业务场景,准备 200 到 500 页原文、100 到 300 条目录记录和 30 到 50 个真实问题。样本不需要一开始很大,但必须包含正常页面、低质量页面、字段缺失、跨页引用、权限受限和证据不足这些情况。

执行时分四步走。

· 先选一个真实小样本,不要用演示样例。样本里要有清晰页面、低质量页面、权限受限材料和普通高频查询材料。

· 先跑基线,不接 AI 或只用现有检索,把人工查找时间、字段修正量、召回遗漏和权限拦截情况记录下来。

· 再接入 AI 链路,只允许它在限定材料范围内生成候选结果,并把每次输入、证据、输出和人工修改写入日志。

· 最后做复盘,不只看成功案例,也要把失败样例按 OCR、索引、权限、模型、人工确认五类归因。

这样做的好处,是能把“AI 好不好用”拆成多个可以修的部件。OCR 质量不够,就先修图像和识别;召回不准,就看索引和切片;权限有问题,就先停用生成能力;人工复核工作量降不下来,就说明候选结果还没有真正帮助业务人员。

试点记录最好每天沉淀成一张小表,而不是等项目结束后再补材料。表里至少记录样本批次、处理页数、失败记录数、人工复核人数、平均复核时间、错误归因和下一次调整项。这样连续跑两三轮以后,就能看出优化到底来自模型,还是来自数据清理、规则补充、索引重建或流程调整。

如果单位内部还没有成熟数据,可以先做影子试运行:AI 只生成候选,不写正式业务库;业务人员仍按原流程办事,但额外记录 AI 候选是否有帮助。影子试运行的价值在于风险低,却能暴露真实问题。等候选结果稳定、权限过滤稳定、审计记录完整后,再逐步放开到半自动流程。

验收不能只看演示效果

建议把下面几类指标写进试点记录或验收表,而不是只在会议上看一次问答效果。

· 核心材料召回率

· 错误证据进入 Top-5 比例

· OCR 低质量页占比

· 答案引用命中率

· 人工归因可定位率

这些指标的意义,是把“好像能用”变成“出了问题能定位”。如果某项指标暂时达不到,也应该记录原因:是数据质量问题、OCR 问题、索引问题、权限同步问题,还是模型生成问题。

和普通演示型方案的差别

演示型方案喜欢展示一个漂亮入口:用户提问,系统回答,页面上再放几个看起来很智能的推荐。工程型方案则先看链路是不是闭合:数据对象有没有主键,原文能不能回跳,权限是否在模型输入前生效,日志能否复盘,人工是否可以接管,错误是否可以回滚。

这两种方案短期看差别不大,都会有界面,也都能回答一些问题。差别会在试运行时出现。用户问题变多、数据质量变差、权限规则变复杂、模型版本变化之后,演示型方案只能继续调提示词;工程型方案可以沿着链路定位问题,并把修正沉淀成规则、索引、样本和验收指标。

因此,真正值得投入的不是“多接一个模型”,而是把每一次试错变成资产。一次错误召回可以补充同义词和重排样本,一次越权拦截可以补充权限规则,一次引用失败可以修正页码映射,一次人工否决可以进入评测集。这样的系统会越用越稳,而不是每次演示都重新开始。

这也是档案 AI 与通用办公 AI 最大的不同。通用办公场景更看重生成速度和表达质量,档案场景还要看证据、责任和长期维护。今天写下的字段、日志和指标,明年仍要能解释;今天引用的页面,后续重建索引后仍要能找到。

失败边界要提前说清

不要把全部错误都交给大模型自我反思。模型可以解释现象,但工程系统必须能记录输入、召回、过滤和引用,否则无法复盘。

档案行业的智能化不能只追求自动化比例。越是接近正式业务,越要保留来源、权限、复核、回滚和审计。一个稳的系统,应该允许 AI 给出候选结果,也允许人明确否决、修正和追责。

领至科技的工程视角

领至科技的文章和产品演示应把错误链路讲清楚:不是承诺 AI 永远不出错,而是让错误可定位、可复测、可改进。

这类内容适合持续写成系列,因为它不是单篇文章里的观点,而是一套可以反复验证的建设方法。每一篇都可以对应一个项目检查项:数据能否关联,证据能否回跳,权限能否前置,指标能否复测,结果能否复核。读者看完以后,既能理解为什么不能盲目追热点,也能拿着这些问题去评估自己的系统和供应商方案。

如需了解档案检索、OCR 质检和 AI 错误归因方法,可以点击文末阅读原文访问领至科技官网。

上一篇:50 个问题测出真假档案 AI:如何构建问答评测集 下一篇:别急着接大模型:档案 AI 的第一张底表到底怎么建?