视觉大模型驱动 AI OCR

身份证转Excel
正反面自动合并,18位身份证号实时校验

手工将一张身份证的正反两面信息——姓名、性别、民族、出生日期、住址、身份证号码、签发机关、有效期限——逐一敲进Excel,平均耗时2到3分钟。批量录入50人就是1.5到2.5小时。简录AI处理每张仅需5到10秒,正反面自动配对合并为一行,一次性导出统一汇总表。

文件不用于模型训练 · TLS 1.3 传输加密 · 处理后自动删除 · 符合个人信息保护法

正反面合并
18位校验
XLSX/CSV

身份证上能提取哪些字段

输入你需要的列名——"姓名""身份证号码""签发机关"——简录AI根据列名的语义在身份证正反两面中定位对应的值。你输入的列名就是最终Excel的表头。不按坐标框选、不依赖版面模板,视觉大模型理解的是画面内容与字段语义。

正面(人像面)

姓名
性别
民族
出生日期
住址
公民身份证号码
人像照片

反面(国徽面)

签发机关
有效期限起始
有效期限截止

你还可以自由添加推断列——输入户籍省市(根据身份证号前6位推断),AI自动对照地址码判断户籍所在地。身份证上没有但你需要的分类字段?看看下面的推断列

身份证提取的瓶颈不在"识别文字",而在正反面如何自动合并为一行

百度OCR、阿里云OCR、华为身份证识别API都能"读出"姓名和身份证号,但你的需求不是正反面两次API调用和两个JSON——你需要的是1张Excel表,每人占一行,正面6个字段和反面3个字段全部对齐。从两张照片到一行数据之间的配对、合并、校验,才是真正消耗时间的环节。

传统方案的问题

01

正面一次API调用、反面一次API调用——返回两个JSON,你需要自己合并

所有主流OCR厂商的身份证识别API都是单面识别:人像面一次调用返回正面字段(姓名、性别、民族、出生日期、住址、身份证号),国徽面一次调用返回反面字段(签发机关、有效期限)。两面的数据在两个独立的JSON里——如果你的入职批次有50人、100张身份证照片,你需要自己写脚本把每人的正反面配对,或者手工把100个JSON结果逐一复制粘贴进Excel。在知乎上, 有用户描述手工录入时的困境:你得把每张身份证翻到背面,对着那一行小字仔细看,然后切换到Excel里敲进去——录着录着就容易串行。

02

固定返回字段清单——不在列表里的,就提不到

百度OCR返回约10个字段、阿里云返回约12个、腾讯云返回约10个。但如果你需要"身份证有效期还剩多少天"来判断是否需要提醒员工更新证件、或者需要"户籍省市"来做员工属地统计——这些信息不在任何API的固定输出列表里。你只能在拿到基础数据后,自己用Excel公式或手动对照地址码表来补充——识别省下的时间,又被数据处理吃掉了。

03

18位身份证号码需要人工校验,但API不帮你算

身份证号码的第18位是校验码——由前17位通过加权求和模11算法得出。无论是OCR误读(把"6"看成"8"、把"3"看成"8"),还是身份证本身无效——识别结果是否正确,你必须自己验证。手写校验逻辑需要在Excel里敲一个长长的公式(MOD(SUMPRODUCT(...),11)等),或者逐位对照计算器——这才是身份证数据入库最容易出错的环节。

简录AI的解法

01

自定义列名提取——正面和反面的字段你在同一张列名清单里全部定义

不需要分两次调用、不需要配对两个JSON。你在列名输入框中一次性写好所有需要的列名——"姓名""性别""民族""出生日期""住址""身份证号码""签发机关""有效期限起始""有效期限截止"——AI根据列名的语义,自动在正反两张图片中定位对应字段,最终每人输出一行。你输入的列名就是Excel表头,每人一行就是最终结果——没有中介JSON、没有手工配对、没有二次合并。

02

计算列自动验证18位校验码——提取的同时做校验,问题行一眼定位

在列名中定义计算逻辑:输入 身份证号校验(IF(校验码正确, "通过", "异常")),AI在提取每张身份证时,自动取出18位号码、执行加权求和模11算法、核对校验码——结果直接显示在输出表的校验列中。凡显示"异常"的行,要么是OCR识别有错,要么是号码本身无效——你不需要逐行手算校验公式,扫一眼校验列即可锁定问题数据。

03

推断列自动标注户籍省市、性别验证等——身份证上没有的信息AI帮你补

推断列让AI根据身份证号码自动推导身份证上未直接写出的信息。例如输入 户籍省市(根据身份证号前6位推断),AI根据前6位地址码对照GB/T 2260标准自动输出"广东省广州市"或"上海市"——即使身份证上只写了"住址"而没写"户籍省市"。

同理,你可以通过计算列做性别二次验证:输入 性别验证(IF(身份证号第17位奇偶=性别, "一致", "待查"))——第17位奇数为男、偶数为女,AI提取时自动比对,标记不一致的行供人工复核。还可以通过有效期限截止日期判断证件是否即将到期,自动输出"有效""90天内到期""已过期"——一个批次完成提取、校验、分类全部步骤。

新员工批量入职——30人、60张身份证照片(正反各30张),一次处理完

这不是虚构场景。每批新员工入职,HR需要收集所有人的身份证正反面照片(或复印件扫描件),录入花名册并导入HR系统。以下是简录AI的实际处理流程。

1

上传所有身份证正反面照片

将30人的60张照片(每人正面+反面两张)全部拖入上传区——手机拍的照片、PDF扫描件、微信传输的图片均可,格式不限。AI自动判断每张照片是人像面还是国徽面,通过身份证号码自动将同一人的正反两面配对。如果你不想逐个收集文件,可以使用收集链接生成专属链接发给新员工——他们各自拍照上传自己的身份证,文件自动进入你的处理队列,无需对方注册。

2

输入列名,一次定义正反面全部字段

在列名输入框中填写:"姓名""性别""民族""出生日期""住址""公民身份证号码""签发机关""有效期限起始""有效期限截止"。再加三个辅助列:身份证号校验(IF(校验码正确, "通过", "异常"))户籍省市(根据身份证号前6位推断)证照状态(IF(有效期限截止<TODAY(), "已过期", IF(有效期限截止-TODAY()<90, "90天内到期", "有效")))——AI一次提取,同时完成校验、分类和到期预警。

3

下载汇总Excel,直接导入HR系统花名册

处理完成后,下载一份XLSX文件:30行×12列(9个正反面字段 + 3个辅助校验/分类列),每行对应一位员工。校验列标注了所有异常行——身份证号码校验未通过、性别与身份证号不一致、证照即将到期——一眼锁定需要人工复核的数据。日期已统一为YYYY-MM-DD格式、住址中的多余空格已清理、身份证号码列已设为文本格式防止科学计数法——这份表可以直接作为HR系统花名册的导入文件,无需打开Excel再做任何格式调整。

适用场景与注意事项

不写"什么都能做"。以下是真实的能力边界——知道什么情况下效果好、什么情况下需要谨慎,比一份夸大的功能清单更有用。

效果最佳的场景

✓ 清晰照片或扫描件,光线均匀无遮挡

身份证是标准印刷体文档,文字印刷清晰规范。在光线均匀、正面取景、对焦清晰的情况下,印刷体识别准确率最高可达99%。特别是身份证号码区域(印刷字迹最清晰)、姓名、签发机关等核心字段准确率尤其高。

✓ 批量入职建档、KYC合规审核、劳务派遣花名册

这是本工具最匹配的场景:几十甚至上百人的身份证正反面混合上传,自动配对、自动校验、直接输出一张汇总Excel——省去了"逐张识别→正反面配对→手工合并→逐行校验"的全部中间环节。HR部门、合规部门、劳务派遣公司批量处理身份信息时,效率提升最为显著。

✓ 需要补充身份证上未直接写出的信息

如果你不仅需要身份证上的文字,还需要户籍省市、证件到期预警、性别核对、身份证号码校验——这些都可以通过计算列和推断列在提取时同步完成,不需要拿到数据后再手工补充。

需要留意的场景

⚠ 大面积反光、斜拍导致严重透视变形、模糊不清的照片

图像质量直接影响识别准确率。塑封过的身份证容易产生大面积反光斑块,遮盖身份证号码或住址等关键字段。严重斜拍(比如把身份证放在桌上斜角拍摄)会导致透视变形,身份证号码的字符间距和形状失真。模糊、失焦的照片会造成数字混淆(1和7、3和8、6和0等)——身份证号码仅需一位字符错误,校验计算就会失败。建议补拍清晰、正面、光线均匀的照片后再上传。

⚠ 屏幕翻拍(摩尔纹)、过度压缩的微信传输图片

对着电脑屏幕或手机屏幕翻拍身份证照片,会产生摩尔纹(彩色条纹干扰),严重影响文字区域的可读性。通过微信等即时通讯工具多次转发压缩的图片,分辨率会大幅下降——住址区域的密集文字、签发机关的小号字体可能变得模糊不清。尽量使用原始照片或扫描件上传。

⚠ 身份证真伪核验不在本工具范围内

简录AI从身份证图片中提取文字信息——姓名、身份证号码、签发机关等。18位校验码验证可以检测"号码是否符合编码规则",但无法判断身份证本身是否伪造(假证可能使用符合规则的虚构号码)。如需实名认证,需对接公安部权威数据源或使用阿里云实人认证服务进行三要素/四要素核验。本工具完成的是"从图片到结构化数据"这一环节。

常见问题

身份证正反面的信息能自动合并到一行吗?如何确保正反面配对不串行?

可以自动合并。简录AI处理每张图片时,先判断是人像面还是国徽面——通过图像内容识别(人像面有人物照片,国徽面有国徽图案和签发机关字样)。正反两面通过身份证号码关联配对:人像面有完整的18位身份证号码,AI将同一号码的正反两面信息合并为一条记录、输出到Excel的同一行。

你上传文件时不需要标注正反面、不需要按顺序排列、不需要将同一人的两张照片放在一起。AI自动完成判断和配对。如果一个批次中同一身份证号码出现多张人像面(可能是同一人不同年份的证件),AI会通过有效期限判断哪个是最新版本。

18位身份证号码的最后一位校验码能自动验证吗?怎么实现的?

可以自动验证,通过计算列机制实现。你只需在列名中定义一个计算列——例如输入 校验结果(IF(身份证号校验码=实际第18位, "通过", "异常"))——AI在提取身份证号码后,自动取出前17位、执行加权求和模11算法(ISO 7064:1983 MOD 11-2标准)、将计算结果与第18位实际值比对,最终在"校验结果"列中输出"通过"或"异常"。

这个校验可以区分两类错误:(1) OCR识别有误——比如"6"被误读成"8",校验码对不上;(2) 号码本身不符合编码规则——输入错误或虚构号码。两种情况校验列都会标记"异常",供你人工复核确认。需要注意的是,校验通过不等于身份证是真实的——假证可能使用符合编码规则的有效号码。

翻拍、反光、模糊的身份证照片还能准确识别吗?

清晰、光线均匀、正面拍摄的身份证照片,印刷体字段的识别准确率最高可达99%。对于轻微的反光、阴影或透视变形,视觉大模型具有一定的自适应纠正能力。

但在以下情况下,识别准确率会显著下降:大面积反光遮盖文字区域(尤其是塑封身份证的光斑)、严重斜拍导致的透视变形(身份证号码字符扭曲)、失焦模糊(数字1和7、3和8、6和0之间产生混淆)、屏幕翻拍的摩尔纹干扰。身份证号码仅需一位字符错误就会导致校验列标记"异常"——如果你发现大部分行都被标记异常,大概率是照片质量问题,建议补拍清晰照片后重新上传。

批量处理几十张身份证,每张都有正反面,输出格式是什么样的?

输出一份汇总Excel(XLSX),每张身份证(每人)占一行。你在列名中定义的正面字段(姓名、性别、民族、出生日期、住址、身份证号码)和反面字段(签发机关、有效期限起始、有效期限截止),以及辅助校验列(校验结果、户籍省市、证照状态等),全部作为独立列输出在同一行中。

举例:你上传了50人的100张照片(每人正反面各一张),处理完成后得到一份XLSX文件——50行数据 × 你定义的列数。每人一行,所有正反面字段对齐。不需要手工合并50个正面JSON和50个反面JSON,不需要逐个配对——一张汇总表就是最终结果。同时支持导出CSV格式,方便导入各类HR管理系统。

身份证数据涉及个人隐私——安全性怎么保障?符合个人信息保护法吗?

身份证包含姓名、身份证号码、住址等敏感个人信息,数据安全是底线。简录AI采取以下措施:

(1) TLS 1.3加密传输:所有上传和下载的数据均通过金融级加密通道传输。
(2) 不用于模型训练:你上传的身份证图片及提取结果绝对不会被用于训练或优化AI模型——你的数据完全归你所有。
(3) 处理后自动删除:处理完成后,上传文件与提取结果在24小时内从服务器自动清除,不留存。
(4) 隔离处理:不同用户、不同批次的数据在隔离环境中独立处理,互不可见。

关于《中华人民共和国个人信息保护法》——简录AI作为数据处理工具提供方,遵循"最小必要"原则收集和处理个人信息,完成提取任务后即删除数据。如果你的企业涉及大规模员工或客户身份信息的处理,建议配合内部合规流程(如员工知情同意、数据脱敏后展示等)使用本工具。

了解更多:从任意文档中提取指定字段 —— 自定义列名提取机制的完整介绍 · 手工录入Excel的隐性成本 —— 为什么手动录入比你以为的更贵 · AI手写识别:从潦草到精准录入 —— 身份证上手写签名等手写字段的识别能力