VLM 驱动 AI OCR

报关单转Excel
海关申报数据自动提取

一张报关单——预录入编号、海关编号、HS编码、成交方式、运费保费、申报要素——手工逐字段录入每张至少5分钟，申报要素自由文本区尤其容易打错。简录AI用你自己定义的列名自动提取，5到10秒完成一张。

免费试用

文件不用于模型训练 · TLS 1.3 传输加密

PDF/扫描件

进出口报关单

批量处理

从报关单中能提取什么

输入你需要的列名，AI按语义在每张报关单上定位对应字段——不依赖版式位置。无论是电子口岸打印件、报关行回传的扫描件还是单一窗口导出的PDF，一套列名定义全部适用。

预录入编号

海关编号

进出口岸

运输方式

运输工具名称

提运单号

监管方式

征减免税方式

成交方式
(FOB/CIF/CFR)

运费/保费/杂费

合同协议号

件数/包装种类

毛重/净重

集装箱号

HS编码/商品编号

申报要素
(品名/规格/成分)

以上字段仅为示例。你可以输入任意自定义列名——包括推断列（如"监管方式分类：一般贸易/加工贸易/保税物流"）和计算列（如"CIF总价折合（FOB价格 + 运费 + 保费）"）——AI自动识别并按列名语义提取或计算对应数据。

为什么报关单的自动化提取比普通单据难

报关单不是发票——它是一份双面法律文书，"申报要素"区域是连续的、不分行的自由文本。加上每一项商品对应一行HS编码、成交方式、运费保费——信息密度极高，不同报关行的打印排版也各不相同。以下是报关单提取的三个核心难点，以及列名提取AI的解法。

传统方式的困境

申报要素是自由文本——传统OCR按行列读取，必然截断。"申报要素"一栏包含品名、规格型号、成分含量、用途、包装规格等多个子项，形式是连续的自由文本段落，不是表格行。不同报关行的打印效果也不同——有的用换行分隔、有的用斜杠分隔、有的用分号。传统OCR工具按行列网格读取文档，遇到自由文本区要么截断输出、要么把连续段落拆成乱序片段。Reddit r/CustomsBroker 版块上，有报关从业者坦言每周花数小时从海关文件中手工提取数据，因为自动化工具无法完整提取自由文本段落。

多页报关单——商品项数一多，每项数据散在2-3页上。一张报关单最多容纳5-6项商品（取决于各商品申报要素的长度），超过则延续到后续页面。一项商品的基本信息（商品编号、商品名称）可能在第1页、规格型号在第1页底部继续到第2页、成交方式和运费保费在第3页。通用OCR逐页独立处理，无法建立跨页关联——结果是同一项商品的信息被切成三段碎片，需要人工逐页对号拼接。

HS编码和商品编号分开标注，相邻列内容需要合并。中国报关单的生产企业经常将HS编码拆成两部分打印——"商品编号"栏里是前8位基础码，"附加编号"栏里是第9-10位附加码，中间被竖线分隔。或者在一个表格单元格内分两行显示。传统OCR把它们当成两个独立字段输出，报关员只能手动拼回完整10位编码——一个编码少拼一位数字，HS归类就可能对不上，后续关税计算、监管条件判定全链出错。海关归类错误可能导致最高达货值100%的罚款。

列名提取的解法

按语义理解，不按行列坐标读取。视觉大模型不是逐行扫描——它像人一样先理解页面内容的语义层级关系：哪些文字属于"申报要素"这个逻辑区域、哪些属于"备注"或"签章"。输入列名"申报要素"后，AI识别出报关单上包含品名、规格型号、成分等自由文本的逻辑区域，从该区域的起始位置提取到终止位置，输出为完整的、保留原始分隔符（换行或分号）的文本段落——不截断、不打乱。不管你用斜杠、分号还是换行分隔子项，AI都照实提取原文。

视觉大模型理解页面连续性，跨页数据自动拼接。当一项商品的申报要素从第1页延伸到第2页，AI不会把两页当作两个独立文件处理。它识别出第1页末尾的截断处与第2页开头的延续内容属于同一逻辑段落，自动拼接为完整输出。同一项商品跨越多页的所有字段——HS编码、品名、规格型号、成交方式、运费保费——在最终的Excel中以一行呈现，无论它跨了多少页。AI自动维护每一行的字段归属关系，不会出现第1页的成交方式对到第3页的商品编号。

分级编码自动合并，推断列做合规分类。当报关单上HS编码的基础码和附加码分开标注（如"6204.62.00"和"99"分别在相邻两列或两行），你只需定义列名"HS编码（完整10位）"——AI识别出这种分组标注模式后，自动将前8位基础码与后2位附加码合并为完整的10位编码输出。你还可以用推断列做自动分类：定义列名监管条件是否触发（选项：是/否/需复核），AI根据HS编码和品名描述自动判断——报关单上不需要印"监管条件"这个词。如果要做金额核验，用计算列定义CIF差额（报关CIF - 发票CIF），AI在提取时自动完成比对，非零行即为需要核对的异常单据。

报关行日常场景：从报关单PDF到报关数据底稿

如果你每天需要将报关行回传的报关单打印件、客户发来的报关单扫描件录入到内部系统或与商业发票做交叉核对，以下是典型的操作闭环。

上传报关单文件

报关行回传的报关单PDF打印件、客户邮件里的报关单扫描件、从单一窗口下载的报关单版式文件——支持PDF、JPG、PNG混合上传。一天几十票报关单，可以一次拖入全部文件。不同报关行打印的格式各不相同也没关系——AI逐张识别，无需先按来源分类。你还可以生成收集链接发给报关行或客户，让他们直接上传报关单到你的处理队列——对方无需注册，文件自动进入你的账号。

定义一次列名

输入你需要的字段：预录入编号、海关编号、进出口岸、运输方式、提运单号、监管方式、征减免税方式、成交方式、运费、保费、合同协议号、件数、毛重、净重、集装箱号、HS编码、申报要素。这组列名应用于批次内所有文件——你输入的列名就是最终Excel的表头。如果需要按成交方式分类统计，加一列推断列成交类型（选项：FOB/CIF/CFR/其他）即可。

导出汇总Excel

每张报关单的每项商品以一行输出——列名与你定义的一致，申报要素为完整文本段落。这份Excel可以直接作为报关数据底稿：按HS编码分类统计、与商业发票成交方式交叉核对、筛选特定监管方式的报关单做专项分析。支持导出XLSX、CSV或JSON格式。简录AI还支持智能数据后处理——自动将日期统一为YYYY-MM-DD格式、金额统一为保留两位小数的数字——数据在导出前就已完成标准化清洗。

哪些报关单效果好，哪些要谨慎

报关单的来源质量差异很大——从电子口岸直接打印的激光打印件到经过多次复印的模糊扫描件。了解准确率的边界，合理分配复核精力。

效果最佳的情况

✓

电子口岸/单一窗口直接打印的报关单。激光打印件，文字清晰锐利，字段标签标准——"预录入编号"、"海关编号"、"申报要素"等字段名称明确可辨。印刷体文字识别准确率最高可达99%，编号类数字和HS编码等结构化字段尤其可靠。

✓

报关行回传的标准格式扫描件。大多数报关行使用统一模板打印报关单，字段布局一致——即使不同报关行的模板不同，只要同一报关行的多票报关单版式一致，AI可以稳定提取。一张报关单含5-8项商品、跨2-3页的标准格式效果最佳。

✓

批量处理不同来源的报关单。一天收到多个报关行回传的报关单、客户自行打印的报关单——格式各不相同，但你需要的字段一致。一组列名，一次上传，输出合并表格。不需要为每个报关行单独维护识别模板。

需要谨慎的情况

⚠

经过多次复印或传真的模糊报关单。报关单经过复印机多次复制，文字出现笔画断裂、粘连、字体发虚——尤其是"运费"、"保费"、"杂费"等金额数字的小字体区域可读性显著下降。海关编号和HS编码等长串数字中的"0"和"8"、"6"和"9"可能混淆。遇到这类文件，建议对编码类字段做人工抽检。

⚠

手工填写或手工修改的报关单。部分报关行仍在使用手工填写的纸质报关单模板——手写字体。工整楷书的填写内容提取准确率尚可，但潦草的连笔字、涂改后的重写内容、铅笔轻度标注的备注信息，准确率会明显降低。涉及HS编码、金额、件重尺等关键数字的手写字段，建议导出后与报关行书面确认。

⚠

申报要素与备注栏内容紧密交织。报关单底部有时会同时出现"申报要素"正文、"备注"说明和"海关批注"——三部分在版面上可能紧密相连，没有明显的视觉分隔线。AI虽能区分语义差异，但遇到内容连续、字体一致的密集文本区，可能会有少量备注文字被误纳入申报要素结果。建议对申报要素输出做快速通读确认。

常见问题

报关单的申报要素是自由文本，没有固定行列格式，AI能完整提取吗？

能。这是简录AI与传统OCR的核心区别。

报关单的"申报要素"一栏包含多项子内容——品名、规格型号、成分含量、用途、包装规格、品牌类型等——以连续的自由文本形式呈现，不是固定的表格行列。不同报关行的打印格式也不同：有的用换行符分隔各项、有的用斜杠（/）分隔、有的用分号（;）。内容长度也不固定——一个简单的商品申报要素可能只有两行，一个复杂的化工品可能占半页纸。

传统OCR按行列网格逐行读取文档，把页面当作一个坐标矩阵。遇到自由文本区时，它无法识别"这一大段文字属于同一个逻辑区域"——结果要么只读到前两行就截断输出，要么把连续文本切成按照行列坐标随机截取的碎片。

简录AI的视觉大模型像人一样阅读文档：先理解"申报要素"四个字的位置，然后扫描其下方或右侧"属于这个标签的文本区域"，从该区域的起始位置提取到终止位置——不论该区域是一行、三段还是半页——输出为完整的、保留原始分隔符的文本段落。字段完整性由语义驱动，不由行列坐标决定。

报关单上的HS编码有6位也有10位的，基础码和附加码分开印，能正确合并吗？

可以。中国报关单使用10位HS编码体系：前6位是WCO国际统一编码（如6204.62），第7-8位是中国海关附加的本国子目，第9-10位是附加码（如"99"表示"其他"）。

不少报关单将HS编码拆成两部分打印——"商品编号"栏里填前8位基础码、"附加编号"栏里填后2位，中间以竖线或空格分隔。或者在同一表格单元格内分上下两行显示（第1行为"6204.62.00"，第2行为"99"）。

当你定义列名"HS编码（完整10位）"时，AI识别出这种分组标注模式——相邻列或换行中的数字序列被理解为同一编码的组成部分——自动将两部分合并为完整的10位编码输出。"6204.62.00"和"99"合并为"6204.62.0099"。

如果你只需要前6位国际通用编码做分类统计，也可以直接定义列名"HS前6位（截取前6位数字）"，AI在提取时自动截断。注意：简录AI提取报关单上已经印好的HS编码原文，不做编码有效性校验——编码是否与商品实际相符仍需由报关行根据海关归类规则确认。

多页报关单怎么处理？一项商品跨了两三页，跨页数据能正确拼接吗？

能。报关单因申报商品项数多，跨页是常态——一张报关单通常容纳5-6项商品，超过则自动延伸到第2页、第3页甚至更多页。

视觉大模型不是逐页独立处理然后拼结果——它在分析时理解文档的全部页面是一个连续体。当一项商品的信息从第1页底部开始、延续到第2页顶部，AI识别出第1页末的截断文本与第2页首的接续文本属于同一语义段落，自动合并为完整字段输出。

同一项商品跨越多页的所有字段——HS编码、商品名称、规格型号、成交方式、运费、保费——在最终Excel中以相同一行输出，不会出现"第1行是商品A的HS编码、第2行是商品A的成交方式"这种错位。但有一种情况需要留意：如果跨页处恰好有报关单的表头信息（如第2页顶部重复印刷了"进出口货物报关单"标题和海关编号），建议导出后快速扫读确认，确保AI正确跳过了重复的表头区域。

手工填写的报关单扫描件能用吗？手写字体的申报要素能识别吗？

可以，但准确率因字迹质量而异。

简录AI的视觉大模型同时训练手写体识别能力，对工整的楷书或仿宋手写体有较好的识别效果——尤其是在标准报关单模板（有方框或横线约束手写区域）上的填写内容。海关编号、HS编码等数字手写在一个方格内的场景，识别准确率较高。

但以下情况会降低手写识别准确率：潦草连笔的草书或行楷、铅笔轻划的浅色填写、涂改后重写区域（旧笔迹与新笔迹叠加）、手写字体与印刷底纹叠在一起。特别是"申报要素"区域的手写自由文本——如果书写紧凑、字迹潦草——建议对提取结果做人工复核。HS编码和金额等关键数字如果是手写的，建议与报关行书面记录交叉比对后再使用。

提取的报关单数据能直接用于单一窗口录入或出口退税申报吗？

简录AI导出的XLSX文件是标准Excel格式，列名由你定义——你可以将列名设置为与单一窗口报关数据录入界面、出口退税申报系统要求的字段名称一致。导出后可作为数据录入参考底稿或CSV导入文件使用，无需二次调整表头和格式。

简录AI支持智能数据后处理：自动将日期格式统一为YYYY-MM-DD、将金额格式统一为保留两位小数的数字、移除报关单号中的空格和特殊字符——数据在导出前就已完成标准化清洗。

但需要明确说明：报关单的正式申报数据必须通过国际贸易"单一窗口"系统或指定报关申报平台提交，简录AI解决的是数据提取和整理环节——从报关单图像/PDF中提取关键字段、生成结构化数据底稿——不替代正式的申报提交操作。提取出的数据在正式录入系统前，建议与原始报关单做一次快速抽检核对，特别是HS编码和成交方式等影响关税计算和监管条件的关键字段。

报关单转Excel
海关申报数据自动提取

从报关单中能提取什么