每张营业执照、每份ISO证书版式都不同——供应商资质批量提取建台账的实操路径

一套200家供应商的资质台账,按每家5-8份资质文件算,就是1000到1600份文件。营业执照、ISO体系证书、食品经营许可证、安全生产许可证、环保批复——每类证照来自不同的发证机关,每一份的版式都不一样。手工录入一个人的话,两周都做不完:一张营业执照从看清统一社会信用代码的每个字符到敲完,至少3分钟——不是打字慢,是怕敲错那18位里任何一个。

批量提取供应商资质信息建台账——开始处理 →
供应商各类资质证书——营业执照、ISO证书、许可证——批量提取关键信息到一张Excel台账

Key Takeaways

  1. 200家供应商的营业执照、ISO证书、许可证加起来上千份——但同一类证书在不同供应商手里版式没有两张相同,老版横版、新版竖版、电子截图、纸质扫描件各不相同。
  2. 不是技术不够好——是问题定义错了。资质管理的核心矛盾是"格式数量无上限 × 每种格式只出现几次",模板OCR在"格式少、同格式量大"时才合算,资质场景恰好相反。
  3. 放弃模板——从"告诉AI字段在哪个坐标"换成"告诉AI你要找什么":输入"统一社会信用代码""企业名称""有效期至",AI自己理解语义去定位,不管什么版式都通吃。

供应商资质管理——问题不在"系统功能",在"数据怎么进来"

现在市面上的SRM(供应商关系管理)系统和ERP的供应商管理模块,功能都做得很完备了:供应商档案、资质到期提醒、绩效评分、淘汰机制——该有的都有。但有一个环节,几乎所有系统都默认已经解决了,实际上根本没解决:数据怎么从一张张PDF、扫描件、手机拍的照片,变成系统里可查询、可对比、可预警的结构化字段。

做过供应商准入的人都知道这个环节的狼狈。一家中型制造企业的供应商库通常有100到300家供应商,每家的资质文件清单至少包括:营业执照、ISO 9001(质量)、ISO 14001(环境)、ISO 45001(职业健康安全),如果涉及特种行业,还有食品经营许可证或安全生产许可证或特种设备制造许可证。每年年度评审时,这些文件中相当一部分会在当年到期——需要逐份检查、提醒供应商更新、收到新证后再录入系统。

采购部门通常的做法是:一个人对着屏幕,一张营业执照一张营业执照地敲——统一社会信用代码18位,企业名称(特别是"XX省XX市XX区XX有限公司"这种长名),经营范围一大段话。一张至少3分钟,100张就是5个小时。然后换ISO证书,换许可证——在数据进入系统之前,人已经先被耗光了。而且长字符串录入的错误率在第30、40张之后会急剧攀升——统一社会信用代码抄错任意一位,后续在企查查或国家企业信用信息公示系统里整条记录就查无此企业。

核心洞察:供应商资质管理的数字化瓶颈,从来不在软件功能层面——任何SRM系统都能做到期提醒。真正的瓶颈在数据采集端:上千份版式各异的资质文件,如何变成结构化字段,而且不能漏、不能错。回答了这个"第一步",后面的档案管理、到期预警、合规审查才是有源之水。

资质文件——最不适合"模板OCR"的文档类型

如果有一种文档类型天生就与模板OCR八字不合,那就是资质证书。

模板OCR的工作原理是"基于位置的提取":你在文档上画框,告诉系统"统一社会信用代码在这里",然后每次处理同一格式的文档时,系统就去那个坐标位置找。这个逻辑对固定格式的文档(比如你自家的采购订单模板)是有效的——但资质文件恰恰相反:同一类证书在不同供应商手里,版式没有两张是完全一样的。

营业执照就是最典型的例子。老版营业执照是横版的,新版是竖版的;有些供应商提供的是纸质执照扫描件,有些提供的是电子营业执照截图——信息一样,但字段排布完全不同。更不用说各省工商局的历史版本差异:北京的、上海的、广东的执照版式都有细微差别。ISO体系证书更离谱——不同的认证机构(SGS、TÜV、BSI、CQC……)各自有各自的证书设计模板,字段位置、排列顺序、甚至字段名称(有的叫"有效期至",有的叫"Valid Until")都不统一。

如果你用模板OCR方案,意味着你需要为每一种版式建一个模板。200家供应商的营业执照可能有十几个不同的版式,ISO证书可能有二十几个——这还没算上食品经营许可证、安全生产许可证、环保批复这些更"非标"的资质类型。建模板、维护模板、版本更新还建新模板——模板OCR的"维护成本"在资质管理场景下会吃掉你所有省下来的时间。

还有一个容易被忽略的问题:你不可能提前知道下一批供应商的资质文件长什么样。每次开发新供应商,对方发来的资质文件格式大概率是全新的——又得新建模板。这也是为什么很多上了SRM系统的企业,资质数据录入环节仍然靠人。

资质文件不适合模板OCR的根本原因,不是技术不够好——是问题定义错了。资质管理的核心矛盾是"格式数量无上限 × 每次只处理少量同类文档"——模板方案在"格式少、同格式文档量大"的场景下才合算。资质场景下,每种格式可能只出现几次,而格式总数持续增长。

从坐标提取到语义提取——同一套列名,覆盖全部版式

如果模板OCR是"基于位置的提取"(Position-Based),那么另一种思路是"基于语义的提取"(Semantic-Based)——你不告诉AI字段在页面的哪个坐标,而是告诉AI你要找什么,然后AI靠理解文档的内容含义自己找到它。

具体到产品中,这就是简录AI的"自定义列提取"机制:你在界面上输入你想要的字段名——比如"统一社会信用代码"、"企业名称"、"法定代表人"、"注册资本"、"经营范围"——然后上传文件,AI按每个字段名的语义含义在文档中定位对应的值填入表格。输入什么列名,输出表的表头就是什么。

举个例子。营业执照上"统一社会信用代码"的位置,不同版式的执照各不相同,但"统一社会信用代码"这个概念——一个由18位数字和大写英文字母组成的字符串——在任何一张执照上都是同一个语义实体。语义提取让AI去找"那个看起来像18位统一社会信用代码的字符串",而不是去"第X行第Y列找"。同一个列名定义,作用于不同供应商、不同版式的营业执照,AI都能正确识别。(关于自定义列提取的完整机制,可参阅自定义列提取入门指南。)

不仅如此,自定义列提取还支持一种传统OCR做不到的操作——"推断列"。文档上并没有直接写出某个信息,但AI可以根据文档的整体内容推断出它。比如你定义了一列"资质类别(选项:营业执照/ISO认证/食品许可/安全生产许可/环保批复/其他)",AI在读取每一份文件时会自动判断这份文件属于哪种资质类型并填入对应选项——哪怕文件上根本没写"我是营业执照"这几个字。这意味着你一份营业执照、一份ISO证书、一份食品经营许可证混合上传,出来的表已经自动分好了类别,不需要你在处理前手动分类。

这种从"位置"到"语义"的跨越,在供应商资质管理场景下释放了一个之前被锁死的可能性:采集端真正可以一次性覆盖全部供应商、全部资质类型,而不是一种版式一种版式地磨。

资质台账建设实操——从文件收集到到期预警的完整链路

下面是一个完整的实操流程,覆盖从文件收集到建成可用的资质台账。

第一步:确定提取字段

在开始上传文件之前,先想清楚你要建什么样的台账。营业执照、ISO证书、许可证——每类资质需要提取的关键字段不同。建议按资质类型分好类,每类设计一套提取列名。具体字段设计参考下一节"不同资质类型的列名设计参考"。

为了提高效率,建议增加一列推断列——"资质类别(选项:营业执照/ISO体系证书/食品经营许可/安全生产许可/环保批复/其他)"——这样不用在提取前手动按资质类型分文件。营业执照、ISO证书、许可证可以混在一起上传,AI自动分类。

如果你最终要将数据导入ERP或SRM系统,建议直接把列名设为目标系统的导入字段名——这样提取完成直接导入,不需要手动做列名映射。例如你的SRM系统里"供应商名称"字段叫"supplier_name",就把列名设为"supplier_name"——AI理解的是语义,不依赖列名的中文英文。

第二步:批量上传

将所有供应商的资质文件一次性上传。支持JPG、PNG、PDF混传——有些供应商发的是扫描件PDF,有些是手机拍的照片,有些是电子证照截图,不用提前整理格式。PDF多页文件(比如一份包含正本和附页的ISO证书)AI会自动识别包含关键信息的那一页。

如果你需要向供应商统一收集资质文件,可以使用简录AI的"收集链接"功能:生成一个链接发送给各供应商联系人,对方打开链接上传资质文件后,文件自动进入你的待处理队列——不需要对方注册账号,也不用来回在微信或邮件里收发文件。

第三步:提取建表

点击处理,AI开始批量提取。处理完成后,你得到一张Excel表格——每一行是一个证件,每一列是你定义的字段。你输入的列名就是表头。如果某个文件上没有某个字段(例如某份营业执照的经营范围处被遮挡),对应单元格会留空——不会乱填。

这步的核心价值不是"快"——5-10秒一页对比人工3分钟一页——而是一致性。200家供应商的营业执照,统一社会信用代码全部18位无误,不是靠人盯出来的。

第四步:导入系统或在Excel中建台账

如果你有SRM或ERP的供应商管理模块,将提取的Excel按系统模板稍作整理后直接导入。如果暂时没有系统,在Excel中维护即可——后续也可以用这张Excel直接做筛选、排序、条件格式设置。

第五步:设置到期预警

台账的核心价值不是存档——是提前知道哪些资质快过期了。基于Excel的"有效期至"列,设置条件格式:

  • 到期前90天——黄色标记:提醒准备续期材料,有足够缓冲期联系认证机构或发证机关
  • 到期前60天——橙色标记:提醒供应商启动续期流程,部分认证(如ISO年度监督审核)需要1-2个月排期
  • 到期前30天——红色标记:紧急预警。资质一旦过期,合规审查或客户验厂时就会出现资质断档——这在ISO审核中是严重不符合项

如果你的SRM系统支持自动提醒,将"有效期至"数据导入后,系统的到期预警功能就可以真正运转起来了——前提是数据已经进来了。这也回到了本文开头的观点:系统的到期预警功能再强,没有数据就是空转。

不同资质类型的列名设计参考

以下是常见供应商资质类型的推荐提取字段。你可以根据自己企业的实际需求增减。

资质类型建议提取列名说明
营业执照统一社会信用代码、企业名称、法定代表人、注册资本、成立日期、营业期限至、经营范围、登记机关核心字段。统一社会信用代码是企业唯一标识,可用于对接企查查等第三方数据做交叉验证
ISO体系证书认证标准、认证范围、获证组织名称、证书编号、发证日期、有效期至、认证机构注意区分监督审核报告和初次认证证书。监督审核报告需单独提取审核日期和审核结论
食品经营许可证许可证编号、经营者名称、法定代表人、经营场所、主体业态、经营项目、发证日期、有效期至、发证机关经营项目直接决定供应商的供货品类是否在许可范围内——这是比营业执照范围更精确的合规判断依据
安全生产许可证许可证编号、企业名称、主要负责人、许可范围、有效期至、发证机关建筑、矿山、危化品行业须核查此证。与建筑业企业资质证书(施工资质等级)不要混淆
环保批复/排污许可证许可证编号、单位名称、行业类别、主要污染物、有效期至、发证机关制造业供应商尤其是化工、电镀、印染行业,环保合规是供应商准入的红线指标

一个实用的技巧是在所有列名组合中都加入"供应商名称"列——营业执照上的企业名称、ISO证书上的获证组织名称、许可证上的企业名称可能不完全一致(例如集团公司与其子公司分别持证),AI提取时会如实填入每个文件上的实际名称,方便后续在台账中按实际持证主体归类。

此外,善用推断列可以节省大量手动分类时间。示例列名组合:

推断列示例——资质类别(选项:营业执照/ISO体系证书/食品经营许可/安全生产许可/环保批复/其他)

AI会在读取每份文件的内容后自动判断属于哪类资质。这样一份营业执照、一份ISO证书、一份食品经营许可证混着上传也没关系——出来的表已经按照"资质类别"列自动分好类。提取的同时完成了分类,不需要在处理前手动按资质类型分拣文件。

如果需要在提取的同时完成一些判断或计算,还可以使用"计算列"。例如,定义一个列"距到期剩余天数(有效期至-今天)",AI在提取有效期时会同步计算出距离到期还有多少天——出来的台账直接自带剩余天数,优先级一目了然。关于计算列和报价单批量对比的更多用法,可参阅供应商报价单批量对比一文中的计算列实操示例。

台账建好之后的三个关键动作:到期预警、年审归档、审计响应

资质台账的价值不在"有"——在"在需要的时候能快速给出答案"。以下是从台账到实际业务价值的三个关键使用场景。

到期预警不只是"标个颜色"。不同资质类型的续期节奏完全不同:ISO体系证书一般有效期3年,但每年需要监督审核(监督审核过期视同证书暂停);食品经营许可证有效期5年,需要到期前30个工作日内申请延续;安全生产许可证有效期3年,到期前3个月申请延期。如果台账中同时追踪营业执照(长期有效但需年报)、ISO证书(3年+年审)、各类许可证(各自有效期),就需要按"资质类别+有效期至"交叉筛选,排出月度/季度的续期工作计划——这不是系统自动生成的,是台账让这项工作变得可操作。

年度供应商评审时,台账让工作从"翻文件夹"变成"一键筛选"。评审周期内需要更新资质的供应商名单、哪些资质已过期或即将过期、哪些供应商的资质文件不完整——这些问题的答案以前需要一个下午翻纸质档案或逐个点开系统记录,现在在Excel里筛选"有效期至"列、排序、导出,几分钟就能出评审准备清单。

外部审计或客户验厂时的响应速度。ISO审核员或客户SQE(供应商质量工程师)可能会在审核现场点名要求查看某几家供应商的特定资质——如果你能把台账当场调出来、按"供应商名称"和"资质类别"快速定位,比去档案室翻文件夹可靠得多。更重要的是,台账中的"有效期至"字段可以证明你在主动管理供应商资质的有效性,而不是等到过期了才发现——这在ISO 9001:2015第8.4.1条"外部提供的过程、产品和服务的控制"审核中是加分项。

关于营业执照批量提取的更多实操细节——包括不同版式执照的提取对比、ERP系统导入前的数据清洗——可参阅营业执照批量提取到Excel一文。

常见问题

资质文件是手机拍的,不是扫描件,AI能识别吗?

能。手机拍摄的照片(即使有轻微的倾斜、反光、阴影)AI都能正常识别。简录AI的视觉大模型对手机拍照场景做了大量优化——毕竟现实中大多数供应商发来的是微信里的随手拍,不是高清扫描件。但如果照片严重模糊、关键字段被手指遮挡,识别效果会打折扣——这和人工看也看不清是一个道理。

不同供应商的营业执照版式差异很大——需要每个供应商单独建一套列名吗?

不需要。这就是语义提取区别于模板OCR的核心所在。你只需要定义一套列名(如"统一社会信用代码、企业名称、法定代表人……"),AI会按每个列名的语义含义在不同版式的执照中找到对应的值——无论是老版横版、新版竖版、还是各省市的不同版式。同一套列名覆盖全部供应商的营业执照。

除了营业执照和ISO证书,其他"小众"资质类型——如特种设备制造许可证、排污许可证、辐射安全许可证——能提取吗?

能。自定义列提取的核心优势就是不限制证照类型。你输入什么列名,AI就去文档中找什么。特种设备制造许可证上的"设备类别"和"制造许可级别",排污许可证上的"排放口编号"和"污染物种类"——只要你在列名中定义了这些字段,AI就会去定位和提取。不像通用证照识别API那样只支持少数几种预设证照类型。

资质上的信息被印章覆盖或手写标注了——会影响提取吗?

简录AI的视觉大模型对印章覆盖和手写叠加有较强的鲁棒性。但如果印章完全覆盖了关键信息且不可辨认(如统一社会信用代码整段被章盖死),AI也无法提取——因为这属于原始信息已经不可见了,不是识别能力的问题。手写标注(如审批人签字、日期批注)通常可以被正常识别。

提取出来的数据怎么和现有的ERP/SRM系统对接?

最简单的方式是通过Excel导入。提取结果输出为XLSX文件,你可以按ERP/SRM系统的导入模板整理列序后批量导入。如果频繁操作,建议直接在自定义列名时使用目标系统的导入字段名——省去列名映射这一步。如果你的系统支持API对接,也可以通过简录AI的API接口实现自动化。

资质文件涉及供应商的商业敏感信息——上传到AI工具有安全风险吗?

文件处理完成后会在一定时间后自动从服务器清除。如果是特别敏感的供应商资质(如国防军工类供应商的涉密资质),建议在使用前评估企业内部的信息安全政策。常规企业供应商的营业执照、ISO证书等属于公开或可公开查询的信息(营业执照信息可在国家企业信用信息公示系统查询),安全风险可控。

结语

供应商资质管理这件事,说到底是两步:(1) 从文件中提取关键信息,(2) 基于提取出来的信息做管理动作(建档、预警、审查)。过去二十年,所有SRM和ERP厂商都在优化第二步——档案管理越来越完善,到期提醒越来越智能,绩效评分模型越来越复杂。但第一步——数据怎么从文件里出来——一直被当成"用户自己解决"的前提条件。

这个前提条件不成立。你自己解决过就知道,它不是文件数量的问题——它是"版式差异"和"长字符串录入准确性"这两个问题叠加在一起,让手工录入从"慢"变成了"不可靠"。而模板OCR的解法在格式高度碎片化的资质管理场景下,模板维护成本比手工录入还高。

语义提取的出现,让第一步不再是前提条件——你可以用同一套列名覆盖任意版式的资质文件,营业执照和ISO证书混合上传也是一张表。建好台账之后,第二步的到期预警、合规审查、审计响应才有真正的数据基础。

先解决数据怎么进来。后面的事,自然就顺了。