别再问哪个模型最强了:档案 AI 要这样选基础模型
用通俗语言讲清楚基础模型选型:模型不是越大越好,档案行业要看中文理解、引用纪律、结构化输出、工具调用、权限边界、内网部署和单位成本。
别再问哪个模型最强了:档案 AI 要这样选基础模型
用通俗语言讲清楚基础模型选型:模型不是越大越好,档案行业要看中文理解、引用纪律、结构化输出、工具调用、权限边界、内网部署和单位成本。
文章属于行业研究与技术科普,不替代项目设计、合规审查或招投标技术文件;引用时应保留来源、标题和原文地址。
别再问哪个模型最强了:档案 AI 要这样选基础模型
很多人一聊档案 AI,就会问:到底哪个大模型最强?
这个问题很自然,但不够准确。
就像买车不能只问“哪辆车最快”。如果你每天在城市通勤,最快的赛车不一定适合你;如果你要跑山路,底盘和通过性比极速更重要;如果你要拉货,空间和可靠性又排在前面。
档案行业选基础模型也是一样。不是看谁在通用榜单第一,而是看它能不能在档案场景里稳定完成任务:找得到材料,说得清出处,守得住权限,输出能被系统解析,成本能被项目接受。

基础模型到底是什么
可以把基础模型理解成一个“读过很多资料、学会语言规律和知识关联的通用大脑”。
它本身并不知道你单位的档案库里有什么。它能做的是理解问题、改写问题、总结材料、生成结构化结果、判断下一步要调用什么工具。
所以档案 AI 不能只靠模型。模型外面还要有目录库、全文索引、向量库、权限系统、引用系统、人工复核流程。
基础模型像发动机,但档案系统是一整辆车。发动机再强,刹车、方向盘、仪表盘、导航和安全带都不能少。
为什么通用榜单不能直接指导档案项目
通用榜单常测试数学、代码、知识问答、推理能力。这些指标有价值,但和档案行业的真实问题不完全一样。
档案问答最怕三件事。
第一,模型答得很像,但档案里没有这个依据。
第二,模型引用了材料,但引用错了页码或张冠李戴。
第三,模型把用户无权访问的内容间接说了出来。
所以档案模型评测要换一套指标。
档案模型评测重点:
1. 中文档案题名、文号、责任者能否理解
2. 检索片段不足时能否拒答
3. 关键结论能否绑定档号、页码、片段编号
4. JSON、表格、字段输出是否稳定
5. 能否调用检索、摘要、质检等工具
6. 能否在内网或离线条件下部署
7. 单次问答总成本是否可控
注意最后一句是“总成本”。一次问答的成本不只有模型价格,还包括检索、重排、向量库、日志、GPU、运维和人工复核。
Qwen、DeepSeek、GLM、GPT/Claude 应该怎么比较
正式写选型方案前,必须按当天官方文档核验模型版本、上下文长度、价格、API 字段、许可证和部署方式。这里给的是评测框架,不替任何模型做永久结论。
Qwen 系列适合重点测试本地部署、中文任务、开源生态和结构化输出。对需要内网试验、私有化部署、国产环境适配的档案单位,它通常值得优先进入候选池。
DeepSeek 系列适合重点测试推理能力、中文工程任务、成本和批量处理表现。它可以作为云端或私有化方案的对照,尤其适合看复杂问题拆解和代码/工具链辅助。
GLM 系列适合重点测试国内服务生态、工具调用、结构化输出和 Agent 编排能力。档案系统如果要做“模型调用业务工具”,这类能力要单独拉出来测。
GPT/Claude 类模型适合做高质量对照组。它们往往在复杂指令、长文本归纳、写作组织上表现强,但档案项目必须关注数据出境、成本、网络边界和合规问题。
真正的结论通常不是“选一个”,而是“组合使用”。
本地模型负责敏感材料、OCR 质检、自动著录候选;高能力云端模型只处理脱敏材料、公开资料、复杂技术辅助;所有模型输出都必须回到同一套权限、引用和审计体系。
模型选型要按任务拆,不要按品牌拆
档案系统里的 AI 任务可以拆成六类。
第一类是问题改写。用户说“查一下当年修楼的材料”,系统要把它改写成项目名称、年度范围、材料类型、同义词。这个任务不一定要最大模型,但要求输出稳定。
第二类是目录检索。模型帮助生成检索条件,但真正查目录要靠数据库、全文索引和权限过滤。
第三类是原文问答。模型只能基于已召回、已授权的片段回答。它必须学会“材料不足,不能回答”。
第四类是自动著录候选。模型从 OCR 文本里抽题名、责任者、日期、文号。这要求 JSON 稳定,不然系统无法批量处理。
第五类是编研初稿。模型把多份材料组织成段落,但每个关键判断都要带出处。
第六类是工具调用。模型决定什么时候调用检索、什么时候读取片段、什么时候生成报告、什么时候停止并要求人工确认。
不同任务适合不同模型。把所有任务都交给一个模型,既贵,也不稳。
建一个 50 问评测集
最实用的办法,是先不要争模型,先建评测集。
50 个问题就能看出很多差异。
archive_eval_set:
exact_lookup: 10 # 精确查档号、文号、责任者
semantic_lookup: 10 # 用户只描述事项,不说原题名
multi_doc_summary: 10 # 多份材料归纳
refusal: 10 # 材料中没有答案,测试拒答
permission: 10 # 用户无权限,测试过滤
每个问题都要有标准答案和出处。不是只写“答案是什么”,还要写“答案来自哪份档案、哪一页、哪个片段”。
评分也要简单可执行。
{
"question_id": "Q-017",
"must_cite": true,
"expected_archive_no": ["LZ-2021-013"],
"expected_page": [3, 4],
"permission_required": "project_member",
"score_rules": {
"answer_correct": 40,
"citation_correct": 30,
"no_hallucination": 20,
"format_valid": 10
}
}
有了这套评测集,模型升级就不是靠感觉。换模型、换提示词、换向量库、换重排器,都能跑同一套题。
五个指标比模型名更重要
第一个指标是引用命中率。回答里的结论能不能回到正确档号和页码。
第二个指标是拒答正确率。材料里没有答案时,模型能不能老老实实说“不足以判断”。
第三个指标是结构化输出成功率。自动著录、报告生成、工具调用能不能稳定输出 JSON 或固定字段。
第四个指标是越权拦截率。无权限材料是否完全不进入模型上下文。这个指标目标必须是 0。
第五个指标是单位问题成本。一次完整问答从检索到模型回答再到日志保存,总成本是多少。
这五个指标都能被测试、被复盘、被写进验收。
领至科技的落地建议
领至科技做档案 AI,不应该把重点放在“接入某个最强模型”上。
更稳的路线是建立模型评测工具链:脱敏样例库、50 问评测集、召回结果记录、模型回答记录、引用评分、权限测试、成本统计。
这样既能服务当前档案检索、编研、自动著录和质检,也能为未来开源社区铺路。因为评测工具本身就很适合做成开源项目:小、实用、边界清楚,能让同行一起验证。
结尾:选模型,不如先选验收方法
模型会更新,价格会变化,榜单会轮换。
但档案行业真正关心的东西不会变:材料能不能找全,答案能不能找回出处,权限能不能守住,人工能不能复核,项目能不能验收。
所以,别再只问哪个模型最强。
更好的问题是:用什么评测方法,能证明这个模型适合档案行业?
点击文末阅读原文访问领至科技官网,后续我们会继续公开档案 RAG、模型评测和本地部署的工程拆解。