智慧档案行业研究

别再问哪个模型最强了：档案 AI 要这样选基础模型

Q: 模型选型要按任务拆，不要按品牌拆

档案系统里的 AI 任务可以拆成六类。

Q: 结尾：选模型，不如先选验收方法

模型会更新，价格会变化，榜单会轮换。

用通俗语言讲清楚基础模型选型：模型不是越大越好，档案行业要看中文理解、引用纪律、结构化输出、工具调用、权限边界、内网部署和单位成本。

更新时间：2026-05-22 10:15:38 阅读约 9 分钟

行业研究

别再问哪个模型最强了：档案 AI 要这样选基础模型

2026-05-22 10:15:38 阅读约 9 分钟

AI 摘要友好说明 研究阅读口径

事实口径

用通俗语言讲清楚基础模型选型：模型不是越大越好，档案行业要看中文理解、引用纪律、结构化输出、工具调用、权限边界、内网部署和单位成本。

适用边界

文章属于行业研究与技术科普，不替代项目设计、合规审查或招投标技术文件；引用时应保留来源、标题和原文地址。

智慧档案馆档案AI 档案OCR 档案通用大模型智慧档案编研来源可追溯

别再问哪个模型最强了：档案 AI 要这样选基础模型

很多人一聊档案 AI，就会问：到底哪个大模型最强？

这个问题很自然，但不够准确。

就像买车不能只问“哪辆车最快”。如果你每天在城市通勤，最快的赛车不一定适合你；如果你要跑山路，底盘和通过性比极速更重要；如果你要拉货，空间和可靠性又排在前面。

档案行业选基础模型也是一样。不是看谁在通用榜单第一，而是看它能不能在档案场景里稳定完成任务：找得到材料，说得清出处，守得住权限，输出能被系统解析，成本能被项目接受。

基础模型评测技术封面

基础模型到底是什么

可以把基础模型理解成一个“读过很多资料、学会语言规律和知识关联的通用大脑”。

它本身并不知道你单位的档案库里有什么。它能做的是理解问题、改写问题、总结材料、生成结构化结果、判断下一步要调用什么工具。

所以档案 AI 不能只靠模型。模型外面还要有目录库、全文索引、向量库、权限系统、引用系统、人工复核流程。

基础模型像发动机，但档案系统是一整辆车。发动机再强，刹车、方向盘、仪表盘、导航和安全带都不能少。

为什么通用榜单不能直接指导档案项目

通用榜单常测试数学、代码、知识问答、推理能力。这些指标有价值，但和档案行业的真实问题不完全一样。

档案问答最怕三件事。

第一，模型答得很像，但档案里没有这个依据。

第二，模型引用了材料，但引用错了页码或张冠李戴。

第三，模型把用户无权访问的内容间接说了出来。

所以档案模型评测要换一套指标。

档案模型评测重点：
1. 中文档案题名、文号、责任者能否理解
2. 检索片段不足时能否拒答
3. 关键结论能否绑定档号、页码、片段编号
4. JSON、表格、字段输出是否稳定
5. 能否调用检索、摘要、质检等工具
6. 能否在内网或离线条件下部署
7. 单次问答总成本是否可控

注意最后一句是“总成本”。一次问答的成本不只有模型价格，还包括检索、重排、向量库、日志、GPU、运维和人工复核。

Qwen、DeepSeek、GLM、GPT/Claude 应该怎么比较

正式写选型方案前，必须按当天官方文档核验模型版本、上下文长度、价格、API 字段、许可证和部署方式。这里给的是评测框架，不替任何模型做永久结论。

Qwen 系列适合重点测试本地部署、中文任务、开源生态和结构化输出。对需要内网试验、私有化部署、国产环境适配的档案单位，它通常值得优先进入候选池。

DeepSeek 系列适合重点测试推理能力、中文工程任务、成本和批量处理表现。它可以作为云端或私有化方案的对照，尤其适合看复杂问题拆解和代码/工具链辅助。

GLM 系列适合重点测试国内服务生态、工具调用、结构化输出和 Agent 编排能力。档案系统如果要做“模型调用业务工具”，这类能力要单独拉出来测。

GPT/Claude 类模型适合做高质量对照组。它们往往在复杂指令、长文本归纳、写作组织上表现强，但档案项目必须关注数据出境、成本、网络边界和合规问题。

真正的结论通常不是“选一个”，而是“组合使用”。

本地模型负责敏感材料、OCR 质检、自动著录候选；高能力云端模型只处理脱敏材料、公开资料、复杂技术辅助；所有模型输出都必须回到同一套权限、引用和审计体系。

模型选型要按任务拆，不要按品牌拆

档案系统里的 AI 任务可以拆成六类。

第一类是问题改写。用户说“查一下当年修楼的材料”，系统要把它改写成项目名称、年度范围、材料类型、同义词。这个任务不一定要最大模型，但要求输出稳定。

第二类是目录检索。模型帮助生成检索条件，但真正查目录要靠数据库、全文索引和权限过滤。

第三类是原文问答。模型只能基于已召回、已授权的片段回答。它必须学会“材料不足，不能回答”。

第四类是自动著录候选。模型从 OCR 文本里抽题名、责任者、日期、文号。这要求 JSON 稳定，不然系统无法批量处理。

第五类是编研初稿。模型把多份材料组织成段落，但每个关键判断都要带出处。

第六类是工具调用。模型决定什么时候调用检索、什么时候读取片段、什么时候生成报告、什么时候停止并要求人工确认。

不同任务适合不同模型。把所有任务都交给一个模型，既贵，也不稳。

建一个 50 问评测集

最实用的办法，是先不要争模型，先建评测集。

50 个问题就能看出很多差异。

archive_eval_set:
  exact_lookup: 10      # 精确查档号、文号、责任者
  semantic_lookup: 10   # 用户只描述事项，不说原题名
  multi_doc_summary: 10 # 多份材料归纳
  refusal: 10           # 材料中没有答案，测试拒答
  permission: 10        # 用户无权限，测试过滤

每个问题都要有标准答案和出处。不是只写“答案是什么”，还要写“答案来自哪份档案、哪一页、哪个片段”。

评分也要简单可执行。

{
  "question_id": "Q-017",
  "must_cite": true,
  "expected_archive_no": ["LZ-2021-013"],
  "expected_page": [3, 4],
  "permission_required": "project_member",
  "score_rules": {
    "answer_correct": 40,
    "citation_correct": 30,
    "no_hallucination": 20,
    "format_valid": 10
  }
}

有了这套评测集，模型升级就不是靠感觉。换模型、换提示词、换向量库、换重排器，都能跑同一套题。

五个指标比模型名更重要

第一个指标是引用命中率。回答里的结论能不能回到正确档号和页码。

第二个指标是拒答正确率。材料里没有答案时，模型能不能老老实实说“不足以判断”。

第三个指标是结构化输出成功率。自动著录、报告生成、工具调用能不能稳定输出 JSON 或固定字段。

第四个指标是越权拦截率。无权限材料是否完全不进入模型上下文。这个指标目标必须是 0。

第五个指标是单位问题成本。一次完整问答从检索到模型回答再到日志保存，总成本是多少。

这五个指标都能被测试、被复盘、被写进验收。

领至科技的落地建议

领至科技做档案 AI，不应该把重点放在“接入某个最强模型”上。

更稳的路线是建立模型评测工具链：脱敏样例库、50 问评测集、召回结果记录、模型回答记录、引用评分、权限测试、成本统计。

这样既能服务当前档案检索、编研、自动著录和质检，也能为未来开源社区铺路。因为评测工具本身就很适合做成开源项目：小、实用、边界清楚，能让同行一起验证。

结尾：选模型，不如先选验收方法

模型会更新，价格会变化，榜单会轮换。

但档案行业真正关心的东西不会变：材料能不能找全，答案能不能找回出处，权限能不能守住，人工能不能复核，项目能不能验收。

所以，别再只问哪个模型最强。

更好的问题是：用什么评测方法，能证明这个模型适合档案行业？

点击文末阅读原文访问领至科技官网，后续我们会继续公开档案 RAG、模型评测和本地部署的工程拆解。

继续阅读 相关行业研究

用 PostgreSQL 做一张“原文证据表”：不要让 AI 只引用一段孤立文字

证据表要把页码、坐标、校验值、开放状态和组件关系放在同一条可查询链路里，后续检索、编研和复核才有基础。

密集架、门禁、环控、RFID 联动前，先统一事件模型

多设备联动要先统一事件类型、对象、时间、责任人、状态和回写规则。

AI 检索不是把资料丢进向量库：档案 RAG 真正难在这五步

用通俗语言讲清楚档案 RAG 的基础原理：切片、关键词召回、向量召回、重排、权限过滤、引用追踪缺一不可。

养龙虾？OUT了，我们开始养马：Hermes Agent 怎么接进档案工作流

从普通人能听懂的角度解释 Agent：它不是聊天机器人，而是会使用工具的任务执行器。文章拆解 Hermes Agent 的基本原理、安装配置、工...

50 个问题测出真假档案 AI：如何构建问答评测集

从事实题、跨卷宗题、权限题、拒答题和 OCR 噪声题出发，设计一套小而硬的档案 AI 问答评测集。