VLM 驱动 AI OCR

提单转Excel
船名/航次/集装箱信息提取

货代操作员手工录入一张提单平均3-5分钟——用简录AI,输入你需要的列名,每张5-10秒自动提取,跨船公司版式无需配置模板。

文件不用于模型训练 · TLS 1.3 传输加密

PDF/扫描件
海运/空运提单
批量处理

从提单中能提取什么

输入你需要的列名,AI按语义在每张提单上定位对应字段——不依赖版式位置,马士基、中远、MSC还是任何一家船公司的提单,一套列名定义全部适用。

提单号(B/L No.)
订舱号(Booking No.)
船名(Vessel)
航次(Voyage)
发货人(Shipper)
收货人(Consignee)
通知方(Notify Party)
起运港(POL)
目的港(POD)
集装箱号(Container No.)
封条号(Seal No.)
货物描述(Description)
毛重(Gross Weight)
件数/包装类型

以上字段仅为示例。你可以输入任意自定义列名——包括需要计算或推断的字段——AI自动识别并按列名语义提取对应数据。

为什么提单的自动化录入比发票难得多

提单不是发票——它没有统一的字段布局,"船名航次"可能在左上角也可能在表格里,"集装箱号"有时藏在货物描述的备注栏中。每一家船公司都有自己的一套排版习惯,通用OCR只认文字不认结构,遇到跨页货物描述直接切断。以下是提单提取的三个核心难点,以及列名提取AI的解法。

传统方式的困境

01

每家船公司的提单版式都不同。马士基的提单和中远的提单,字段排版天差地别。集装箱号可能在左上角,也可能在货物描述表格的最右列;封条号有时紧挨着箱号,有时藏在备注栏里。货代操作员拿到一张不熟悉的版式,第一件事不是录单,是"找字段"——"一个集装箱号少抄一位,报关就可能退单"(某货代操作员原话)。为每家船公司单独训练OCR模板,维护成本比人工录入还高。

02

货物描述是"自由文本区",跨页是常态。品名、唛头、件数、重量——这些信息没有固定行列,有时写在一个表格里,有时是纯文本,有时跨页好几段,中间还夹杂着船公司的免责声明。通用OCR把第2页和第3页当成两个独立段落输出,唛头表格被拆散成乱序文本。录单员只能手动逐段拼接,一份提单光货描就耗掉五分钟。

03

一票多箱是麻烦的起点。一票提单下常有2-5个甚至更多集装箱,每个箱有独立的箱号、封条号和对应的件重尺。这些信息可能列在一个小表格里,也可能逐行罗列在货物描述中。传统模板OCR一次只能提取第一个匹配项,剩下的箱号要么被忽略,要么被覆盖。漏掉一个集装箱,后续的报关、对账、追踪全链断裂。

列名提取的解法

01

按语义定位,不按坐标定位。"集装箱号"被AI理解为一个概念——不论它在提单上写的是"Container No."、"CNTR No."、"柜号"还是"箱号",无论它位于首页左上角还是末页备注栏,视觉模型都能识别并提取对应值。一套列名定义——提单号、船名、航次、起运港、目的港、集装箱号——适用于马士基、中远、MSC、CMA CGM 等所有船公司的提单。换一家船公司,不需要重新训练任何东西。

02

视觉大模型理解页面连续性,跨页货描自动拼接。AI不是逐字扫描,而是像人一样理解文档的整体结构。当货物描述从第2页延续到第3页,视觉模型识别出上下文关联,将分散在多页的内容合并为完整段落。唛头表格、件重尺、集装箱号与封条号的对应关系——全部保留原始层级结构,不会出现"第一行的封条号对到第二行的集装箱号"这种错位。

03

多集装箱成对提取,一票提单一次性出全。AI识别到提单中有多个集装箱时,将每一对箱号/封条号作为Excel中的独立行输出。同时每一行自动附带单据级字段——提单号、船名航次、起运港/目的港。一票提单有4个集装箱,提取结果是4行数据,每行完整包含船次信息和对应的箱号封条号组合。导出后可直接按箱号筛选、与报关单交叉核对,无需手动补全关联字段。

货代录单场景:从提单PDF到报关参照表

如果你每天需要将船公司发来的提单PDF录入到内部系统或报关平台,以下是典型的操作闭环。

1

上传提单文件

船公司发来的提单PDF、邮件附件中的扫描件、手机拍的提单照片——支持PDF、JPG、PNG混合上传。一天几十张提单,可以一次拖入全部文件。不同船公司的提单混在一起上传也没关系,AI会逐张识别,无需先按船公司分类。

2

定义一次列名

输入你需要的字段:提单号、船名、航次、发货人、收货人、起运港、目的港、集装箱号、封条号、货物描述、毛重、件数。这组列名应用于批次内所有文件。你还可以指定推断列——比如"运输方式(选项:海运/空运/陆运)",AI根据提单内容自动判断并填入对应选项——即使提单上未明确标注运输方式。

3

导出合并Excel

每张提单的每个集装箱以一行输出——列名与你定义的一致。导出的Excel可以直接作为报关参照表使用:按船名航次筛选同一批次的提单、按集装箱号与报关单交叉核对、按起运港/目的港统计货量。一票4箱的提单输出4行完整数据,每行都带着提单号和船次信息,不需要再手动复制关联字段。

哪些提单效果好,哪些要谨慎

提单的清晰度因来源差异很大——从船公司直接导出的数字PDF到经过多次复印的扫描件。了解准确率的边界,合理分配复核精力。

效果最佳的情况

船公司直接导出的数字PDF。马士基、中远、MSC等船公司系统生成的原始PDF提单,文字为数字字体,排版规范,字段标签明确。印刷体文字识别准确率可达99%,提单号、集装箱号、船名航次等关键编码尤其可靠。

有清晰字段标签的标准提单。提单上每个关键区域有明确的标签或栏目标题——"Shipper"、"Consignee"、"Port of Loading"、"Container No."等。AI通过语义理解定位这些标签,提取对应值,即使不同船公司的标签措辞有差异(如"Place of Receipt" vs "Port of Loading"),也能正确映射。

批量处理多家船公司的提单。一天收到来自不同船公司的几十张提单,格式各不相同——但你要提取的字段一致(提单号、船名航次、箱号封条号等)。一组列名,一次上传,输出合并表格。无需为每家船公司创建和维护独立的识别模板。

需要谨慎的情况

经过多次复印或传真的扫描件。提单经过复印机多次复制、或通过传真再扫描,文字会出现模糊、断裂、笔画粘连。尤其是提单底部的免责条款小字区和边角处的封条号,可读性显著下降。遇到这类文件,集装箱号和港口代码等关键信息建议人工核对。

手工涂改或手写标注的提单。货代操作过程中有时会在提单上做手写批注——更改件数、补写封条号、圈出特殊要求。工整楷书的批注提取可靠,但潦草的连笔字、叠加在印刷文字上的涂改、铅笔轻划的备注,准确率会明显降低。涉及数量、重量等结算相关的手写标注建议做人工确认。

货物描述与船公司免责条款紧密交织。提单背面的条款和正面的货物描述有时排版上紧挨在一起,中间没有明显的视觉分隔。AI虽然能区分语义差异,但遇到文字密集、格式条款与货物描述交替混排的情况,可能会有少量格式条款内容被误纳入货描结果。建议对货物描述输出做快速扫读确认。

常见问题

不同船公司提单格式完全不一样,需要逐个配置模板吗?

不需要。这是简录AI与传统OCR模板工具的本质区别。传统工具需要你为每家船公司标注识别框——"集装箱号在(150,360)位置"——换一家船公司就完全失效,你必须重新标注模板。简录AI按字段语义理解文档内容:输入"集装箱号"作为列名,AI会理解"Container No."、"CNTR No."、"柜号"、"箱号"等变体都指向同一个概念,无论它在页面的哪个角落,都能定位对应的值。一套列名定义,适用于马士基、中远、MSC、CMA CGM、Hapag-Lloyd 等所有船公司的提单。

一票提单下有多个集装箱,能一次提取所有箱号和封条号吗?

可以。一票提单常有2-5个集装箱,每个箱有独立的箱号和封条号。简录AI识别到提单上有多个集装箱时,将每一对箱号/封条号作为Excel中独立的一行输出,同时每一行自动附带单据级信息——提单号、船名、航次、起运港、目的港、发货人、收货人。一票提单有4个集装箱,提取结果是4行完整数据,每行的集装箱号和封条号成对出现、不会错位。导出后你可以直接按箱号筛选、与报关单交叉核对,不需要手动为每个集装箱补全提单关联字段。

货物描述跨页了,AI能正确拼接吗?

可以。视觉大模型理解文档的页面连续性——当货物描述从第2页底部延续到第3页顶部,AI自动识别上下文关联,将分散在多页的货描合并为完整段落输出。与传统OCR逐页独立处理不同,简录AI不会把跨页段落切分成两段乱序文本。货描中嵌入的唛头表格、件重尺清单也保持原始行列结构,不会被拆散或打乱顺序。但如果跨页处恰好有船公司的大段免责条款夹在中间,建议对拼接结果做一次快速扫读确认。

空运提单(AWB)也能处理吗?和海运提单的处理方式有区别吗?

可以处理。空运提单(Air Waybill)的版式结构与海运提单不同——没有船名航次,取而代之的是航班号和日期;没有集装箱号,取而代之的是运单号(AWB No.)。但列名提取的机制完全相同:你在列名中输入你需要的信息(如"运单号"、"航班号"、"出发地"、"目的地"、"件数"、"毛重"),AI按语义在空运提单上定位对应字段。同一批次中可以混合上传海运提单和空运提单,在列名中同时定义"船名"和"航班号",AI会识别每份文件类型,有所属字段就提取,没有的字段留空——不会报错,不会填入错误值。

一天几十张提单,能批量处理合并成一张Excel表吗?

可以。一次上传当天收到的所有提单——不同船公司、不同格式类型、PDF和JPG混在一起都可以——定义一组列名,AI对所有文件统一处理。每张提单的提取时间约5-10秒,导出一个合并的XLSX或CSV文件,列名与你定义的一致。一票多箱的提单,每个集装箱一行;一票单箱的提单,每个提单一行。最终表格可直接作为当天的报关参照表或船期跟踪表使用。与人工逐张录入相比,效率提升18倍以上(人工每张提单约3-5分钟)。你还可以生成收集链接(形如 /c/xxxx),让船公司或客户直接将提单PDF上传到你的处理队列——对方无需注册,文件自动进入你的待处理列表。