从任意文档中提取指定字段——
照片、扫描件、PDF全支持
问题从来不是"电脑能不能读取这份文档"。OCR识别文字已经可靠运行了几十年。真正重要的问题——也是大多数工具至今仍没能很好回答的——是:它能不能只给我需要的字段,以我需要的结构输出,无论文档是什么格式?这是另一个问题,需要另一种解法。
OCR与字段提取:实际区别在哪里
OCR(光学字符识别)将图像中的文字转换为机器可读的字符。给它一张收据照片,它返回一段镜像纸面内容的文本字符串。这个输出确实有用:可搜索、可复制,也可以输入其他系统。但它对文字含义毫无感知,不知道哪些部分是你需要的。
指定字段提取的出发点完全不同。它不是问"这份文档里有什么文字",而是问"这份文档在我定义的字段上有哪些值"。输出不是文字转录,而是一个结构化数据集——你的列名是表头,文档内容填充每一行。
| 方式 | 输入 | 输出 | 结构由谁定义 |
|---|---|---|---|
| 基础OCR | 图片 / PDF | 原始文本字符串 | 无——纯文字倾倒 |
| PDF转Excel工具 | 镜像原始版面的表格 | 文档本身 | |
| 模板式提取工具 | PDF / 图片 | 预设字段(发票号、日期、合计……) | 软件厂商 |
| 自定义字段提取 | 任意格式 | 你的列名,从任意版面填充 | 你自己 |
你输入的列名就是输出表格的表头。AI的任务是在每份文档中定位对应的值——无论该值出现在页面哪个位置,文档如何称呼它,或文件是什么格式。
"任意文档"涵盖哪些范围
这种方式支持的输入类型比大多数文档工具更广泛,因为底层技术是视觉大语言模型,而非格式解析器。它像人一样读取图像——理解内容,而不是解码文件结构。
支持的输入格式
数字PDF
带文字层的PDF,来源不限——财务系统、ERP导出、Word转PDF等。
扫描文件
办公室扫描仪输出、存档扫描件、传真文件保存为PDF或图片格式。
文档照片
手机拍摄的收据、发票、表格、白板、印刷表格。需光线合理、无严重模糊。
截图
网页截图、仪表盘、系统界面、支付确认、订单汇总页面的截图。
手写文件
手写表格、现场记录、手签纸质文件。准确率因笔迹工整程度和扫描质量而异。
支持的文档类型
列名在实际操作中如何生效
你提供的列名对AI起到语义指令的作用。你不需要知道某个字段在页面哪个位置,文档怎么称呼它,或者信息是明确标注的还是隐含的。普通语言的字段名就足够了。
以下是AI如何解读列名的几个示例:
无论发票写的是"Due Date"、"Payment Due"、"Pay By",还是隐含地写"Net 30 from invoice date"(此时AI会计算出具体日期),都能找到付款截止日。
识别合同是否自动续约——无论相关条款在"续约"条款、"期限"章节,还是埋在第18页第12.4条款中。
在化验报告或出院小结上找到患者姓名,即使周围还有医生、机构、转诊医生等其他姓名。
检测文档上是否有官方印章或公章——返回是/否,无需印章包含特定文字。
如果某个字段在文档中不存在,对应单元格留空。AI不会用相关字段替代,也不会编造数值。空单元格本身就是准确信息——它告诉你这份文档不包含该数据。
单文档与批量处理:相同列名,多份文件
无论处理一份文档还是三百份,列名方式都同样适用。批量模式下,你一次性上传所有文件,定义一次列名,最终得到一个Excel文件——每行对应一份文档,每列对应你指定的一个字段。
这就是跨格式灵活性在实际工作中的意义所在。现实中的批量处理很少包含完全相同的文档。一个月的供应商发票里,有大供应商导出的数字PDF,有小供应商的扫描纸质发票,还有外勤员工拍摄的收据照片。一轮患者数据采集包括打印的化验报告、手写的入院登记表、系统截图。把它们一起上传,得到一张结构统一的表格,这才是这套方案的核心价值。
处理速度:每页5–10秒。50份单页文档批量处理,10分钟内完成。多页文档(合同、报告)按页数等比例延长。
按文档类型划分的常见使用场景
以下是自定义字段提取替代手工录入最常见的场景,每个场景都对应该文档类型的详细操作指南。
发票与收据
提取供应商名称、发票号、日期、采购单号、税额、合计——支持任意供应商格式、任意版面。每份发票一行。
合同与协议
从一批供应商合同中提取签约方、合同金额、生效日期、到期日、自动续约条款、适用法律。
供应商报价与询价单
将多家供应商报价PDF转化为对比表——单价、最小起订量、交货周期、付款条款——一次批量处理完成。
批量应付账款/费用报销处理
一次处理40–200份发票或费用收据。一张表格,每份文档一行,直接粘贴到应付账款跟踪表中。
直接导入Google表格
通过Google表格侧边栏插件上传文件、指定字段,直接将提取数据追加到表格中,无需下载文件。
手写表格与检查清单
从手写入院登记表、巡检清单、纸质调查表中提取字段——包括复选框状态和签名检测。
准确率与诚实的局限性说明
对于清晰文档中的印刷文字——数字PDF、质量良好的扫描件、光线合适的照片——识别准确率可达99%。这覆盖了大多数专业文档处理场景。以下几种情况在正式使用前值得了解:
高准确率场景
- 任意来源的数字PDF
- 300 DPI或以上的办公室扫描件
- 光线充足、无明显模糊的手机照片
- 标准分辨率截图
- 多语言文档——支持任意语言
- 含义清晰的标准字段
准确率下降或不适用场景
- 笔迹密集或潦草的手写内容
- 低分辨率扫描件、严重阴影、极端倾斜
- 需要复杂交叉引用或附表才能确定的字段
- 模糊条款语言的法律解读
- 判断性任务("这笔交易划算吗?")
常见问题
上传新类型文档前需要做任何配置吗?
不需要。没有模板需要配置,也没有针对文档类型的专项设置。上传任意文档,用普通语言输入列名,AI处理剩余的一切。同一个界面适用于发票、合同、表格和手写笔记照片。
同一批次可以混合不同类型的文档吗?
可以。一个批次可以同时包含发票和收据,或者合同和报价单PDF。每个文件生成一行。如果某列不适用于特定文档类型,该单元格留空。混合格式批次(PDF、扫描件、图片)也支持在同一次上传中处理。
支持哪些文件格式?
支持PDF、JPG、PNG、WebP和AVIF。这涵盖了数字PDF、以上述图片格式保存的扫描文件、手机照片和截图。上传前无需转换文件格式。
列名可以写得多具体?
可以相当具体。"A品项单价(每千克,不含增值税)"是有效的列名,AI会尝试匹配这个精细程度。列名越具体,输出通常越干净,因为AI有更明确的目标。像"金额"这样模糊的名称在不同文档类型中可能捕获不同内容——"发票合计(含税)"这样更具体的名称效果更好。
支持哪些输出格式?
支持Excel(XLSX)、CSV和JSON。对于大多数表格工作流,XLSX是默认格式。CSV适合导入数据库或其他系统。JSON适用于将提取功能集成到自动化流程中的开发者。
有没有办法在提取前先从他人处收集文件?
有。你可以生成一个收集链接——一个可分享的URL——发送给外勤员工、客户或团队成员。他们打开链接,输入一个简短验证码,直接上传文件。对方无需注册账号。文件会自动进入你的处理队列。适用于在批量提取前收集费用收据、巡检照片或客户文件。