VLM 驱动 AI OCR

手写送货单转Excel
纸质单据批量数字化

人工逐张录入手写送货单,每张看字迹猜数字平均花3分钟——用简录AI,输入你需要的列名,每张5-10秒自动提取,手写内容按语义理解而非坐标定位。

文件不用于模型训练 · TLS 1.3 传输加密

手写识别
复写纸/打印
批量处理

从手写送货单中能提取什么

输入你需要的列名,AI按语义在每张送货单上定位对应值——无论老张把品名写在左边还是老李写在右上角,列名提取不依赖版式位置。

送货单号
送货日期
发货方/供应商
收货方/工地
货物名称/品名
规格型号
数量
单位
单价
金额/合计
备注
签收人

以上字段仅为示例。你可以输入任意自定义列名,AI会自动识别并按列名语义提取对应数据。

为什么手写送货单的录入比印刷单难十倍

印刷送货单至少还有固定的表格框线——字段在哪一栏是确定的。手写送货单则完全没有版式约束:老张习惯把品名写左上角、数量写右下角;老李反过来,货物名称和数量横排写成一排;今天用蓝色圆珠笔,明天用铅笔;一行写"10件/200公斤",另一行写"5箱"。传统OCR依赖"在某坐标位置找某字段"的画框逻辑——碰上全手写的自由版式,每一个坐标假设都会落空。

传统方式的困境

01

不同人的手写版式完全不同,无法用坐标定位。印刷送货单的"数量"列始终在表格的固定一栏——传统OCR加模板可以搞定。但手写送货单没有表格框线:司机老张把货物名称和数量竖排写,仓库老王横排写,采购老刘甚至不写表头直接用逗号分隔。为每种写法单独画识别框,维护量比人工录入还大。

02

复写纸多联单的后几联字迹消退,传统OCR直接拒绝。送货单通常是二联或三联无碳复写纸:第一联清晰,第二联尚可,第三、四联因压感递减字迹明显变淡。有用户在反馈中直言"有的复写要用力按、有的对齐错位就漏印、还有的写完半小时字迹就发灰"。传统OCR对低对比度文字束手无策,而送到财务手中的往往就是这联最淡的存根。

03

数量和单位混写在一起,OCR只认数字不识度量。手写送货单上经常出现"10件""200公斤""5箱+2袋"这种混合写法——数量和单位紧挨在一起,中间没有空格。传统OCR把整段当成一个纯文本字段输出,无法拆分成"数量=10,单位=件"。人工还得再拆一遍,自动化等于做了半截。

列名提取的解法

01

按字段语义理解,而非坐标定位。当你输入"货物名称"作为列名,AI不是在页面上找(120,450)这个像素位置——而是理解"货物名称"指代的是送货单上的商品描述信息,无论它被写在哪个角落、用什么笔写、横排还是竖排。这种列名提取方式的本质是语义匹配:AI像人一样"看懂"整个页面的内容组织,定位到与列名含义一致的值。一组列名,适用所有手写风格。

02

视觉大模型对手写内容的上下文推断能力。与逐字扫描的传统OCR不同,简录AI的视觉大模型理解整个页面的语境。即使复写纸第三联某个字迹偏淡,模型能通过周围文字和上下文推断该字段的合理值。如果字迹淡到人眼都辨认不了——AI也无法准确提取,但字迹可见只是对比度低的单据,模型通常能处理。每页处理仅需5-10秒(人工录入每张平均3分钟),效率提升18倍以上。

03

数量和单位自动拆分,输出到各自列。AI理解"10件"中的"10"是数值(对应"数量"列),"件"是计量单位(对应"单位"列)——不管手写单上是"10件""200公斤""5箱+2袋"哪种写法,模型都会把数量值和单位标签拆分成两个独立字段输出。同一张单上不同货物用了不同的单位(如第1行用"箱"、第2行用"公斤"),每条记录自动匹配自己的单位,不会串位。

建材批发场景:从司机手写送货单到进销存台账

如果你经营建材五金批发,每天收到司机带回的一叠手写送货单——以下是一个典型的处理闭环。

1

批量上传手写送货单

司机每天带回的送货单——有的是无碳复写纸三联单的存根联,有的是笔记本撕下来的单页,有的是拍糊了的手机照片。支持同时上传JPG照片、PDF扫描件,一次拖入当天所有回单,混合格式统一处理。复写纸偏淡的联单尽量在光线充足处拍摄或使用扫描仪,效果最佳。

2

定义一次列名

输入你需要的字段:送货单号、日期、发货方、工地名称、货物名称、规格、数量、单位、单价、金额、签收人。这组列名一次性应用于当天所有文件。每张送货单的手写风格不同,但提取效果一样——因为列名提取是语义匹配,不是坐标定位。你还可以加一个推断列——比如"物料分类(选项:管材/板材/五金/卫浴)",AI根据货物名称自动归类,提取+分类一步完成。

3

导出合并Excel

每张手写送货单的每种货物作为Excel中的一条记录输出——列名与你定义的一致。导出的Excel可以直接导入进销存系统、作为当日销售流水表使用,按工地筛选、按货物名称汇总。每行数据的数量列是纯数字、单位列是纯文本,不会出现"10件"这样的混合字段(AI在提取时已自动拆分)。提取失败或低置信度的字段留空,不会填入猜测值,方便你对照原单补录。

哪些手写送货单效果好,哪些要谨慎

手写送货单的质量差异极大——从复写纸正联的工整楷书,到司机在方向盘上潦草写下的铅笔字。了解准确率的边界,合理分配人工复核精力。

效果最佳的情况

字迹工整、使用圆珠笔或签字笔的手写单。楷书或行楷,笔画清晰不连笔。深色墨水(蓝/黑)在白纸上对比度高,AI识别最稳定。每张提取仅需5-10秒,批量处理一整天的手写回单效率提升显著。

有无碳复写纸的第一联或第二联。无碳复写纸的上联和下联自带微胶囊显色层,字迹清晰。第一联(白联)通常留底,对比度最高;第二联(粉/黄联)次之。拍照时确保光线均匀、整张单据拍全,可达到较高准确率。

字段分明、有固定填写习惯的长期司机或供应商。同一个司机/供应商的写法虽然与众不同,但每次基本一致——第一次可能要稍作观察,后续批次AI会稳定提取。用推断列还可以让AI自动为不同供应商的单据打标签,按发货方聚合统计。

需要谨慎的情况

复写纸第三联或第四联——字迹偏淡。多联复写纸传递到财务手中时,最后一联的字迹已因压感层层递减而明显淡化。如果人眼已经很难辨认某个数字或汉字,AI同样无法准确提取。建议尽量拿到第一联拍照,或使用扫描仪提高对比度。第三联上仍可辨认的字段AI可以处理,但个别淡处需要人工核对。

极度潦草的连笔字或铅笔轻划的备注。草书、连笔程度很高的手写,以及铅笔书写后在复写纸上留下的浅灰印记——这些场景准确率会明显降低。尤其是手写签名,往往设计得难以辨认,AI提取的签收人姓名建议100%人工核对。签名区的法律效力决定了这最后的核查不能省。

拍照角度歪斜、阴影遮挡、或拍到桌面上其他纸张。手机拍照时如果送货单没有铺平、光线产生了大面积阴影、或画框外拍到了其他纸张的零散文字——都会干扰AI的内容理解。建议把送货单放在平整桌面、光线均匀的环境下拍摄,确保整张单据清晰完整地出现在画面中。

常见问题

司机在现场手写送货单,字迹潦草能识别出来吗?

能识别,但准确率取决于潦草程度。工整楷书和行楷的提取效果较好——视觉大模型基于海量手写样本训练,能通过上下文语义推断字词含义,不像传统OCR那样逐字硬匹配。但如果字迹极度潦草或连笔严重——人眼都要猜半天的那种——AI的准确率同样会下降。建议对关键字段(如金额和签收人)做人工抽查核验,其他字段可放心让AI批量处理。

复写纸第二联、第三联字迹很淡,AI还能看清楚吗?

这取决于字迹淡化到什么程度。无碳复写纸的微胶囊显色层随着联数增加压感递减——第一联最清晰,第二联次之,第三、四联可能部分字段已浅到人眼辨认困难。一个简单的判断标准:如果你自己盯着第三联看能辨认出字迹,AI大概率也能处理;如果你自己都看不清某个数字或汉字,AI同样无法准确提取。建议尽量使用第一联(白联留底联)拍照,或者在扫描时适当提高对比度。对字迹偏淡但仍可辨认的联单,AI的视觉模型通常能通过上下文辅助判断。

数量单位混写在一起——"10件""200公斤""5箱+2袋"——AI会自动拆分成数量和单位两个列吗?

会的。这是手写送货单的典型特征——数量和单位紧挨着写,中间没有空格甚至没有分栏。当你定义"数量"和"单位"两个独立列名时,AI会理解"10件"中的"10"对应数值列、"件"对应单位列,自动拆分后填入各自列中。同一张送货单上不同货物的单位可能不同(第1行用"箱"、第2行用"公斤"、第3行用"米")——AI逐行独立判断,不会把上一行的单位错误填到下一行。这就是列名提取的语义理解优势:它不是在做字符串切割,而是在理解每行货物的计量逻辑。

每天几十张手写送货单,能一次批量处理并输出成一张Excel总表吗?

可以。批量上传当天收到的所有手写送货单——不同司机、不同写法、不同纸张格式——定义一组列名,AI对所有文件统一处理。每张单的处理时间约5-10秒,每张单上每种货物作为Excel中的一条记录输出。最终生成的是一份合并XLSX或CSV文件,列名与你定义的一致。列名提取不依赖版式位置,所以老张的单和老李的单在同一个批次里都能正确提取,输出结果格式统一。与人工逐张辨认手写字录入相比,效率提升18倍以上(人工每张约3分钟)

手写的签收人姓名能准确识别吗?这关系到后续对账和责任追溯。

签收人姓名是手写送货单上准确率波动最大的字段——原因有三:一是签名往往设计得带有个人风格甚至刻意潦草;二是签收人姓名通常写在单据底部角落,可能被折叠或有污渍;三是签收信息直接关系到后续对账与结算的法律依据,不容出错。AI可以提取签收人姓名并提供给Excel输出,但强烈建议对这部分字段做100%人工核对——不要只依赖AI的输出结果。其他字段(货物名称、数量、金额等)可以按比例抽查。