200个SKU的PDF目录,录进进销存要两天——
问题出在哪一步?
电商ERP上线的第一件事不是对接平台——是先把所有商品的SKU信息录进系统。供应商给的是一本PDF产品目录,200个SKU逐行录入需要至少两天。每个SKU包含编码、品名、规格、进价、售价、条码、供应商、最小起订量——不算多,但每多一个供应商,就是一本新的目录,一种新的格式。你在做的不是数据录入,是在每种格式和你的系统之间做"手工翻译"。
Key Takeaways
- 每分钟能打80个字的录入员处理200个SKU只要一小时——实际花两天的原因,是三分之二的时间在重新学习每个供应商的目录排版。
- 给每种格式建一套模板记住字段位置——15家供应商、其中5家不定期改排版之后,维护模板本身就变成了另一份需要花时间的固定工作。
- 你真正需要的是用同一套列名从任意目录格式里提取数据——SKU编码、品名、规格、进价、售价、条码——这7个字段就是你出给每一份目录的同一道考题。
为什么目录录入是整条供应链中最容易被低估的瓶颈
从供应商拿到产品目录,到商品出现在你的店铺里,中间有至少三个环节:目录录入 → 进销存系统 → 电商平台上架。大多数人的注意力放在后两个环节——选什么ERP、对接哪些平台、用哪个上架工具。但第一个环节才是决定了整个链条能走多快的那一步。
问题不在打字速度。经过训练的录入员每分钟可以打80个汉字,200个SKU的数据量不过几千字——理论上一个小时就能录完。实际花两天,是因为打字只占了实际工作量的三分之一。另外三分之二在做另一件事:在每一份供应商目录里"找到"你需要的信息。
供应商A的PDF目录把规格放在第三列,叫"产品参数"。供应商B的Excel把颜色和尺码拆成两列。供应商C的纸质彩页上,规格写在图片下面一行小字里,条码贴在背面。你每切换一个供应商,就要重新"看懂"一种格式——眼睛扫描、大脑定位、手指复制粘贴。这不是熟练度问题,是格式噪音在消耗你的注意力。
200个SKU并不算多。真正的摩擦在于:每换一家供应商,你就得重新学一遍"怎么读"它的目录。把时间花在理解格式上,而不是录入数据上——这才是两天变两小时的关键。
供应商目录到手时的真实情况:没有两份长得一样
如果你是1688上的淘宝卖家,你会收到三种"目录":平台内可以直接导出的标准化数据包(看起来最规整,但实际每个商家的Excel模板不同——有的列名叫"货号",有的叫"商家编码");供应商微信发来的PDF产品图册(几十页,每页6-8个产品,图片和文字混排);以及工厂直接给的纸质报价单拍照(手写的规格备注、盖了章的报价单扫描件)。
如果你是线下批发市场的店主——从义乌、广州十三行、临沂批发市场拿货——情况更碎片化。小工厂的"产品目录"可能是一张拍了三张照片后发到微信上的A4纸。大型批发商可能给一个带几十个sheet的Excel文件,每个sheet对应一个品类。格式不是"乱",是每个供应商都按照自己方便的方式组织信息——而你需要的是统一的结构。
核心矛盾是:你的进销存系统——无论是管家婆、秦丝、旺店通还是金蝶——期待的是整齐的列:SKU编码 | 品名 | 规格 | 进价 | 售价 | 条码 | 供应商 | 起订量。而供应商给你的,是任何一种能承载这些信息的文件格式。中间差的那一步,就是你现在在做的手工翻译。
核心解法:不教工具"在哪找",告诉它"找什么"
处理格式差异的传统方法,是给每种格式建一个模板:在这个PDF里,SKU编码在第三行第二列;在那个Excel里,品名叫"产品名称"在第5列。但这意味着每来一个新供应商,你就要建一个新模板——或者花时间改旧模板来适配新格式。
另一种解法是把问题反过来:你不告诉工具每个字段"在什么位置",而是告诉它"这个字段是什么"。你在界面上输入你想提取的列名——"SKU编码"、"品名"、"规格"、"进价"、"售价"、"条码"、"供应商"、"最小起订量"——然后AI自己去每份目录里找。它不是靠像素坐标定位,而是靠语义理解:它知道"进价"是一个数字,通常出现在产品描述附近,可能标注为"供货价"或"批发价"或"出厂价"——无论标签文字怎么变,数据本身的特征让它能被识别出来。
这就是自定义列名提取和传统模板式OCR的本质区别。模板记住的是"上一次在哪找到的"——换个格式就失效。列名提取记住的是"要找什么"——在任意格式里都能工作。你的进销存系统需要的那些列名不变,AI负责在每份新目录里定位对应数据。
三步操作:从零散目录到统一数据表
以下是从拿到供应商目录到生成结构化数据表的完整流程。以三个供应商的目录为例——一份PDF产品图册、一份Excel报价单、一份微信传来的纸质报价拍照。
定义你要提取的列名
输入你的进销存系统需要的字段:SKU编码、品名、规格(颜色/尺码/材质)、进价、建议售价、条码、供应商名称、最小起订量。这些列名就是最终生成表格的标题——你定义什么,表格就输出什么。还可以加入推断列:比如"商品分类(选项:服装/电子/日用/食品)",AI会根据品名和规格自动判断归属——即使目录上没有"分类"字段。
批量上传所有目录文件
把三个供应商的文件一次性拖入上传区——PDF、Excel、图片混在一起没问题。工具会逐个识别每份文件,对PDF自动分页,对图片做视觉识别。200页的产品图册和20张微信照片可以在同一个批次里处理,结果汇入同一张表格。
导出结构化数据表
处理完成后,下载Excel文件。每一行是一个SKU,每一列是你定义的字段。日期格式已统一(2026/6/6 → 2026-06-06),价格已去除了货币符号保留纯数字,条码已标准化为13位文本格式(避免Excel自动将69码转成科学计数法)。可以直接导入管家婆、秦丝、旺店通或任何进销存系统。
文件在处理完成后自动清除,不用于模型训练
目录数据进系统之后:不是终点,是起点
把数据导入了进销存系统,链条还没有结束。目录录入的真正价值,不在于"省了两天手工时间"本身——而在于数据一旦变成结构化格式,你就可以做手工录入时根本没时间做的事。
价格对比:同一品类从不同供应商拿货,价格差异有多大?把三份目录汇总到一张表里,按品名排序,进价差异一目了然。结合供应商报价数据对比的思路——目录里的标价是一回事,实际询价后拿到的报价是另一回事,两张表放在一起,才知道谁的价格有水份。
计算列:在提取的同时完成定价:你可以让AI在提取进价的同时,直接算出建议售价。只需在列名中写"建议售价(进价×1.4)",AI就会在读取每个SKU时同步完成乘法运算——你拿到的表里既有进价也有建议售价,不需要导出后再用Excel公式算一轮。
缺字段检测:200个SKU的目录,供应商可能漏填了几个条码、几个最小起订量。手工录入时这些空值容易在翻页中被忽略。批量提取后的结果是一张完整的表——哪一行缺了什么字段,扫一眼就能定位。在上架前发现缺字段,比上架后发现"这个商品没有条码没法打单"要省事得多。
如果你的主要场景是处理供应商发来的PDF产品目录,PDF供应商目录数据提取提供了专门针对目录文档的字段预设——从PDF中批量提取产品规格、价格、库存单位等字段,一步导出为Excel。
常见问题
纸质产品目录的照片能识别吗?
可以。用手机拍下纸质目录的页面(确保光照充足、文字清晰即可),直接上传照片。AI会识别图中的文字和表格结构,将数据提取为你定义的列。手写的规格备注——比如"蓝色/XL/棉"——同样可以被识别并填入"规格"列。
1688上的产品数据导出后还需要处理吗?
1688的标准化数据包在平台内看起来很规整,但导出来之后往往会遇到两个问题:一是不同商家对同一个字段的命名不同("货号"vs"商家编码"vs"产品ID"),二是部分字段的格式需要标准化后才能导入你的进销存系统。AI提取的方式是:你定义好你需要的列名,它自己去找匹配的数据——不管1688商家怎么命名。
商品条码(69码)经常被Excel转成科学计数法,怎么处理?
这是提取环节就应解决的问题——不是导出后在Excel里修。在定义列名时,你可以指定输出格式:将"条码"列设为文本格式,输出时已自动保留完整的13位数字,不会变成科学计数法。同理,以0开头的SKU编码、包含特殊字符的规格编码都能正确保留。
能不能批量处理多个供应商的目录?
可以。批量处理正是自动化提取的强项。把三个供应商、五种格式的目录文件一次性上传,工具依次处理,结果可以合并到一张Excel表——多一个"供应商"列区分来源。也能选择每个供应商单独导出一个文件,取决于你的进销存系统需要什么样的导入格式。
提取准确率怎么样?需要人工复核吗?
印刷体文字的SKU编码、价格、数量等结构化数据的识别准确率最高可达99%。手写体、低分辨率图片、复杂排版的识别准确率会略低——建议首次使用时先抽几个SKU核对一遍,了解不同文件类型的效果。工作量从"逐行录入200个SKU"变成了"抽查几个数据点",节省的不是一点点。
供应商目录格式各不相同——这不是你需要去解决的问题。你需要解决的是:用一套统一的列定义,从任意格式的目录中提取同一组数据。剩下的交给AI去"读"。
不是每个sku都值得花两分钟手工录入。200个SKU折合400分钟,将近7个小时——还没算上切换格式、校对条码、处理规格拆分的时间。省下来的不是"打字时间",是你可以去做采购决策、渠道谈判、品类规划的时间。
免费尝试:上传一份目录试试效果