智慧档案行业研究

档案 AI 项目立项前,要先准备哪 6 类样本数据?

档案 AI 项目不能只准备几段演示文本,立项前应准备目录、原文、OCR、权限、问题和失败样例六类样本,并完成脱敏和验收。

更新时间:2026-06-06 18:24:00 阅读约 7 分钟
档案 AI 项目立项前,要先准备哪 6 类样本数据?
行业研究

档案 AI 项目立项前,要先准备哪 6 类样本数据?

AI 摘要友好说明 研究阅读口径
事实口径

档案 AI 项目不能只准备几段演示文本,立项前应准备目录、原文、OCR、权限、问题和失败样例六类样本,并完成脱敏和验收。

适用边界

文章属于行业研究与技术科普,不替代项目设计、合规审查或招投标技术文件;引用时应保留来源、标题和原文地址。

智慧档案馆 档案AI 档案OCR 档案通用大模型 智慧档案编研 来源可追溯

档案 AI 项目立项前,要先准备哪 6 类样本数据?

很多档案 AI 项目一开始就问:用哪个模型,接哪个知识库,能不能做智能问答。

更应该先问的是:拿什么数据试。

如果样本只是几份干净 PDF、几条人工挑好的目录和几个演示问题,系统看起来会很顺。但正式上线后,低质量扫描页、缺字段目录、权限受限材料、跨页引用、电子印章、开放审核意见都会一起出现。那时才发现样本没有覆盖真实问题,模型调得再热闹也很难验收。

档案 AI 样本数据准备

先准备六类样本

档案 AI 立项前,建议至少准备六类样本。

| 样本类型 | 用途 | 最低要求 | | --- | --- | --- | | 目录样本 | 判断字段完整性和检索入口 | 档号、题名、责任者、日期、保管期限、开放状态 | | 原文样本 | 验证回跳、页码和引用 | PDF、OFD、图片或电子文件组件路径 | | OCR 样本 | 验证全文检索和证据片段 | 页码、段落、坐标、质量分 | | 权限样本 | 验证越权拦截和拒答 | 用户角色、利用目的、开放审核状态 | | 问题样本 | 验证召回和回答质量 | 精确题、模糊题、统计题、证据不足题 | | 失败样本 | 验证系统边界 | 低清页、缺页、重份、字段冲突、权限受限 |

这六类样本不是越多越好,而是要覆盖真实业务的困难点。

一个可复制的样本目录

项目启动时,可以先把样本按以下结构组织:

archive-ai-sample/
  catalog/
    records.csv
    field-dictionary.md
  originals/
    QZ-2024-0001/page-001.png
    QZ-2024-0001/page-002.png
  ocr/
    QZ-2024-0001.jsonl
  permissions/
    users.csv
    access-rules.json
  questions/
    eval-questions.csv
  failures/
    low-quality-pages.csv
    conflict-fields.csv

每一类样本都要能回到同一个档案对象。否则目录是一套编号,原文是一批文件,OCR 又是一堆文本,AI 检索时就无法证明答案来自哪里。

脱敏规则要写成机器能执行的规则

不要只在会议上说“样本会脱敏”。应该把脱敏规则写成可检查配置。

{
  "redact_fields": ["person_id", "phone", "address"],
  "mask_text_patterns": ["身份证号", "手机号", "个人住址"],
  "keep_trace_fields": ["archive_id", "page_no", "source_hash"],
  "blocked_scopes": ["涉密", "未开放", "需审批未通过"]
}

这里有一个边界:脱敏不能破坏证据链。档号、页码、来源哈希、质量分、开放状态这些用于复核的字段应保留或替换成稳定标识。

样本验收比模型选择更早

样本准备好以后,先做一次样本验收。

| 检查项 | 合格口径 | | --- | --- | | 目录与原文 | 每条目录能找到对应原文或明确缺失原因 | | 原文与 OCR | OCR 片段能回跳到页码和原图 | | 权限 | 至少覆盖开放、需审批、不开放三类状态 | | 问题 | 同时包含能回答、不能回答、应拒答问题 | | 失败样例 | 有低清、缺页、字段冲突、权限受限样本 | | 日志 | 每次检索和回答可记录输入、证据和输出 |

这些检查看起来朴素,但它决定了后续 RAG、OCR、自动著录和编研辅助是不是能进入正式项目。

样本验收可以先用一张 CSV 控住。

sample_id,archive_id,page_no,has_catalog,has_original,has_ocr,open_status,expected_action
S001,QZ-2024-0001,1,true,true,true,open,answer_with_citation
S002,QZ-2024-0002,3,true,true,false,open,return_original_only
S003,QZ-2024-0003,1,true,true,true,restricted,refuse_or_request_approval
S004,QZ-2024-0004,2,true,false,false,open,report_missing_original

这张表不追求复杂,但能把样本变成可执行测试。比如 restricted 样本如果被模型直接回答,就说明权限前置没有做;has_original=false 的样本如果还能给出“原文证据”,就说明证据回跳链路有问题。

六类样本对应六类风险

| 样本类型 | 要暴露的风险 | | --- | --- | | 目录样本 | 字段缺失、档号不规范、题名过短、责任者混乱 | | 原文样本 | 原文路径丢失、页码错位、组件不完整 | | OCR 样本 | 低清、空页、表格错识、跨页断句 | | 权限样本 | 未开放内容被召回、审批状态被忽略 | | 问题样本 | 问法模糊、统计口径不清、证据不足 | | 失败样本 | 系统是否能拒答、提示复核、记录原因 |

项目立项材料里,最好明确每类样本至少准备多少条、由谁提供、谁负责脱敏、谁验收。否则样本准备很容易变成“临时找几份文件试一下”。

领至科技的项目建议

档案 AI 项目立项,不建议先承诺“模型能回答多少问题”。更稳的做法是先交付一套样本包和验收表。

样本包一旦稳定,后续无论接本地模型、云端模型、向量库还是重排模型,都能用同一批样本回归测试。这样项目才不是演示驱动,而是数据驱动。

点击文末阅读原文,可访问领至科技官网预约档案 AI 检索与样本评估演示。

上一篇:高水平数字档案馆建设,先画能力地图还是先列设备清单? 下一篇:高水平数字档案室和普通档案室,差距到底在日常运行哪里?