视觉大模型驱动 AI OCR

商业发票转Excel
外贸报关发票数据提取,HS编码到贸易术语一键录入

一张商业发票包含出口商、进口商、HS编码、贸易术语、唛头、币种、中英文品名等20多个跨字段——手工逐张录入每张至少3分钟。简录AI用你自己定义的列名自动提取,你输入的列名就是最终Excel的表头,5到10秒完成一张。

文件不用于模型训练 · TLS 1.3 传输加密 · 处理后自动删除

PDF/扫描件
中英双语识别
XLSX/CSV

商业发票上能提取哪些外贸特有字段

商业发票不只是"英文版发票"——它服务于报关、清关、出口退税三套流程,包含HS编码、贸易术语(Incoterms)、唛头、原产国等普通发票工具无从下手的外贸专属字段。输入你需要的列名,AI根据列名的贸易语义在每张商业发票中定位对应值——你输入的列名就是最终Excel的表头。

发票号码
发票日期
出口商名称 & 地址
进口商/收货人信息
HS编码
货物品名(中/英文)
数量 & 单位
单价 & 总价
币种(USD/EUR/JPY等)
贸易术语(FOB/CIF/CFR)
原产国
毛重 & 净重
唛头/Shipping Marks
付款条件/Payment Terms

以上为外贸商业发票核心字段。你还可以提取发票上任何其他信息——银行SWIFT Code、出口许可证号、ECCN编号、声明条款、签名栏等,AI均可按需提取。字段清单不由工具预设,而由你的业务需求决定。

商业发票的提取难点不在英文,而在"懂贸易"

如果你用过通用PDF转Excel工具处理商业发票,会发现它们能"读"出英文单词——但在HS编码代表什么商品类别、FOB和CIF对应不同的成本口径、唛头与品名之间的对应关系这些问题上,传统工具一无所知。这就是字符OCR和AI语义理解的差距。

传统方案的问题

01

HS编码有6-12位不等,传统工具要么忽略要么截断

HS编码的前6位是国际统一(WCO制定),后几位各国自行扩展——美国用10位HTS、欧盟用8位CN、中国用10位。同一张商业发票上可能印着多套编码体系。普通OCR工具把它当成纯数字,按列宽截断输出——你拿到的是不完整的编码,在报关系统里直接对不上。在Reddit r/CustomsBroker板块上,有报关行从业者直言每周花数小时从商业发票中手工提取数据到Excel,因为工具提不完整。

02

贸易术语(Incoterms)是字母组合,但含义决定成本归属

FOB、CIF、CFR、DDP、EXW——这些缩写背后是不同的成本归属(运费、保险费、关税由谁承担)。传统OCR工具能输出"FOB"三个字母,但它不明白FOB价格不含运费和保险——如果报关单和商业发票用不同的贸易术语口径申报,金额对不上,出口退税审核直接退回。在美国海关,价值与装箱单不符会触发最高达货值100%的罚款。

03

中英文双语混排、多种币种,输出格式难以统一

一份发给美国客户的中国出口商业发票上,品名是"不锈钢法兰 Stainless Steel Flange",金额可能同时标注美元(结算用)和人民币(退税用),唛头里混着英文目的地代码和中文箱号。不同买家发来的商业发票币种各不相同——USD、EUR、JPY、GBP——传统OCR工具把币种识别为纯文本,无法为后续金额换算提供结构化的币种字段。月底汇总几十张商业发票的报关数据时,手工统一格式是外贸跟单员的日常痛点。

简录AI的解法

01

自定义列名提取——你定义需要什么,AI在文档中找什么

没有预设字段清单的限制。你在输入框中写上想要的列名——"HS Code"、"Incoterms"、"Shipping Marks"、"Country of Origin"、"Net Weight"——AI根据列名的贸易语义在每张商业发票中定位对应值。不管发票来自哪个国家、什么格式、哪位供应商,只要发票上有这个信息,AI就能找到。你输入的列名就是最终Excel的表头,不需要处理完再手动改表头。

02

推断列自动分类——让AI理解贸易字段的含义

商业发票上只印了HS编码数字,但你在做出口退税时需要知道这批货属于"纺织品"还是"机电产品"。用推断列,你输入商品大类(选项:纺织/机械/电子/化工/食品/其他)——AI读取品名和HS编码后自动判断类别填入,商业发票上并不需要印"商品大类"这个字段。提单号、发票类型(PI还是CI)也可以同样用推断列处理。

03

计算列做金额核验——报关数据一致性检查不再靠肉眼

出口退税审核要求商业发票金额、报关单金额、增值税发票金额三者一致。用计算列,你输入差额(报关金额 - 发票金额),AI在提取时自动完成运算——任何非零行就是需要人工核对的异常单据。你也可以定义人民币折合(美元金额 × 汇率)来同步计算退税申报需要的本币金额,在导出前就完成数据清洗。

月底收到15张海外客户的商业发票和形式发票,报关+退税两套数据——怎么处理

这不是虚构场景。外贸跟单的月底状态:客户的商业发票(PDF附件)、供应商的形式发票(打印扫描件)、货代发来的报关草单——格式各异、币种不同、中英混排。全部录入到出口退税系统需要逐张核对、逐行输入。

1

上传混合格式的商业发票

将客户邮件里的PDF商业发票、供应商扫描件、货代发来的形式发票全部拖入上传区——JPG、PNG、PDF、扫描件按任意顺序混合。也可以生成收集链接发给海外客户,让他们直接上传商业发票到你的处理队列——对方无需注册,文件自动进入你的账号。

2

输入外贸字段列名,定义报关退税需求

在列名输入框中填写你要的外贸字段——"Invoice No."、"HS Code"、"Incoterms"、"Country of Origin"、"Net Weight"、"Currency"、"Total Value"。再加上推断列商品大类(选项:纺织/机械/电子/化工/食品/其他)自动分类,和一个计算列人民币折合(金额 × 汇率)同步换算退税申报用的本币金额。

3

导出汇总Excel,直接用于报关录入和退税申报

处理完成后,导出为一个XLSX文件:每张商业发票占一行(或多行——如果一张发票含多项商品),HS编码、贸易术语、品名、币种、金额全部分列清晰。这张表可以直接作为单一窗口报关数据录入的参考底稿、出口退税申报的进项数据源,以及ERP采购入库的凭证。不再是15张发票逐行比对、逐字段手工敲入。

适用场景与注意事项

诚实说明能力边界。以下是商业发票提取的真实适用条件——知道在什么情况下放心依赖、什么情况下需要人工复核,比一份万能的营销文案更有价值。

效果最佳的场景

✓ 印刷体商业发票,格式规范

电子PDF商业发票、清晰扫描件、光线均匀的手机拍照——印刷体英文和数字识别准确率最高可达99%。HS编码、金额、币种等关键字段准确率尤其高。标准格式(出口商→进口商→商品明细→总计→声明)的结构化发票效果最好。

✓ 商业发票和形式发票混合处理

PI和CI格式高度相似——都有品名、HS编码、贸易术语、金额——AI对两种发票使用相同提取逻辑。你可以将多笔交易的PI和CI混合上传到同一批次,输出Excel表头统一。

✓ 中英文双语品名同步提取

中国出口企业开具的商业发票通常同时标注中英文品名。AI同时理解两种语言,不会因中英混排而漏提中文或混淆输出。你可以分别定义"中文品名"和"英文品名"两列,或合并为一列"中英文品名"。

需要留意的场景

⚠ 手写补充或修改的商业发票

有些商业发票在打印模板上手写补充信息(如手写箱号、手写修改金额)。手写文字识别准确率低于印刷体,尤其是潦草连笔的英文手写。关键字段(HS编码、金额)若为手写,建议人工复核后再录入系统。清晰工整的印刷体手填(如打印模板上工整填写数字)准确率较高。

⚠ 模糊传真件或严重压缩的扫描件

传真件因分辨率极低(通常200dpi以下)、字体发虚,HS编码的数字(如"0"和"8"、"6"和"9")可能误读。严重压缩的扫描件同理。建议尽量获取原始PDF电子版或300dpi以上的清晰扫描件。视觉大模型对低质量图像仍有一定容错能力,但准确率会下降。

⚠ HS编码的关税分类判定不在本工具范围内

简录AI提取商业发票上已经印好的HS编码原文,不做编码有效性校验,也不判断编码是否正确对应商品类别。HS编码的关税分类判定(税率适用、优惠税率资格、监管条件匹配)需要报关行或外贸企业根据商品实际属性和海关归类规则另行确认。提取的错误编码不会自动修正,建议导出后与报关行核对。

常见问题

商业发票和形式发票有什么区别?简录AI能同时处理两种发票吗?

形式发票(Proforma Invoice, PI)是交易前的估算文件——用于报价确认、申请进口许可证、开立信用证,不具备法律约束力,发票标题通常有"PROFORMA INVOICE"字样。商业发票(Commercial Invoice, CI)是货物发出后的正式结算凭证——用于报关、清关、出口退税和银行结汇,具有法律效力。

两者格式高度相似——都有HS编码、Incoterms、品名、数量、金额、原产国等字段。简录AI使用相同逻辑处理PI和CI,你可以将两种发票混合上传到同一批次,输出到同一张Excel表中,表头统一。如果需要在Excel中区分PI和CI,只需在列名中加一列"发票类型"——AI读取发票标题上的文字自动判断填入。

HS编码能自动提取吗?不同国家的HS编码位数不一样怎么办?

HS编码(Harmonized System Code)前6位是WCO制定的国际统一编码,第7-12位各国自行扩展。简录AI直接提取商业发票上印刷的编码原文——不论发票上印的是6位、8位(欧盟CN)、10位(美国HTS、中国编码)还是12位(GCC海湾国家)——不截断、不转换。你的出口报关使用中国10位编码、客户的进口清关使用目的国编码,AI照单全收。

如果你需要统一编码格式(如只要前6位基础编码),可以在列名中写HS前6位(截取前6位数字),AI会在提取时自动截断。如果你需要根据品名自动判断HS大类,用推断列定义HS类别(选项:纺织/机械/电子/化工/食品/其他)即可。

商业发票上的中英文双语品名和唛头能正确提取吗?会不会只读英文忽略中文?

可以,简录AI的视觉大模型同时训练中文和英文,不会出现"看到英文忽略中文"或"把中英文混在一起输出"的问题。外贸商业发票上典型的双语描述——如"不锈钢法兰 Stainless Steel Flange Grade 304"——AI能完整识别。

如果你需要中文和英文分开两列,只需分别定义列名"中文品名"和"英文品名(Description of Goods)"。AI会根据语言属性自动分离。唛头(Shipping Marks)中的中英文混排——如"N.Y./C/No.1-50/箱号:2024A-001"——同样可以完整提取。手写或模糊的唛头符号准确率会略低,建议关键箱号导出后人工抽检。

多币种商业发票——USD、EUR、JPY混在一起——能正确提取币种吗?

能。AI理解商业发票上标注的币种标记——USD、EUR、JPY、GBP、CNY、AUD等常见币种代码——提取时自动识别并填入"币种"列。不同客户发来的商业发票使用不同结算币种,AI逐张识别,输出到Excel中各自正确的币种字段,不会混淆。

如果你需要统一折算为人民币(出口退税申报使用本币金额),可以用计算列:输入人民币折合(金额 × 汇率),AI在提取时自动完成换币计算。你也可以另外定义一列美元折合(金额 ÷ 汇率)统一口径做汇总分析。汇率需由你填入固定值。

提取出的商业发票数据能直接用于单一窗口报关和出口退税申报吗?

简录AI导出的XLSX文件是标准Excel格式,列名由你定义——你可以将列名设置为与国际贸易单一窗口、出口退税申报系统要求的字段名称一致。导出后可作为报关数据录入的参考底稿或CSV导入文件使用,无需二次调整表头。

此外,简录AI支持智能数据后处理:可以自动将日期格式统一为YYYY-MM-DD、将金额格式统一为保留两位小数的数字、移除发票号码中的空格和特殊字符——数据在导出前就已完成标准化清洗。但请注意:商业发票的出口退税数据最终仍需在单一窗口或退税申报系统中正式提交,简录AI解决的是数据提取和整理环节,不替代申报系统的提交操作。

了解更多:自动提取发票任意字段 —— 自定义列名提取机制的深度介绍 · 不同发票格式统一处理方案 —— 多供应商多格式混合处理机制 · 批量发票数据提取到Excel —— 大批量发票月底汇总的完整工作流