从任意文档中提取指定字段——照片、扫描件、PDF全支持

问题从来不是"电脑能不能读取这份文档"。OCR识别文字已经可靠运行了几十年。真正重要的问题——也是大多数工具至今仍没能很好回答的——是:它能不能只给我需要的字段,以我需要的结构输出,无论文档是什么格式?这是另一个问题,需要另一种解法。

各类文档——照片、扫描件、PDF——等待指定字段提取

OCR与字段提取:实际区别在哪里

OCR(光学字符识别)将图像中的文字转换为机器可读的字符。给它一张收据照片,它返回一段镜像纸面内容的文本字符串。这个输出确实有用:可搜索、可复制,也可以输入其他系统。但它对文字含义毫无感知,不知道哪些部分是你需要的。

指定字段提取的出发点完全不同。它不是问"这份文档里有什么文字",而是问"这份文档在我定义的字段上有哪些值"。输出不是文字转录,而是一个结构化数据集——你的列名是表头,文档内容填充每一行。

方式输入输出结构由谁定义
基础OCR图片 / PDF原始文本字符串无——纯文字倾倒
PDF转Excel工具PDF镜像原始版面的表格文档本身
模板式提取工具PDF / 图片预设字段(发票号、日期、合计……)软件厂商
自定义字段提取任意格式你的列名,从任意版面填充你自己

你输入的列名就是输出表格的表头。AI的任务是在每份文档中定位对应的值——无论该值出现在页面哪个位置,文档如何称呼它,或文件是什么格式。

"任意文档"涵盖哪些范围

这种方式支持的输入类型比大多数文档工具更广泛,因为底层技术是视觉大语言模型,而非格式解析器。它像人一样读取图像——理解内容,而不是解码文件结构。

支持的输入格式

数字PDF

带文字层的PDF,来源不限——财务系统、ERP导出、Word转PDF等。

扫描文件

办公室扫描仪输出、存档扫描件、传真文件保存为PDF或图片格式。

文档照片

手机拍摄的收据、发票、表格、白板、印刷表格。需光线合理、无严重模糊。

截图

网页截图、仪表盘、系统界面、支付确认、订单汇总页面的截图。

手写文件

手写表格、现场记录、手签纸质文件。准确率因笔迹工整程度和扫描质量而异。

支持的文档类型

发票和收据
合同和协议
供应商报价单
采购单和装箱单
银行和支付账单
调查和登记表
医疗和化验报告
运单和物流单据
身份证/驾照/证书
现场巡检照片

列名在实际操作中如何生效

你提供的列名对AI起到语义指令的作用。你不需要知道某个字段在页面哪个位置,文档怎么称呼它,或者信息是明确标注的还是隐含的。普通语言的字段名就足够了。

以下是AI如何解读列名的几个示例:

Due Date(付款截止日)

无论发票写的是"Due Date"、"Payment Due"、"Pay By",还是隐含地写"Net 30 from invoice date"(此时AI会计算出具体日期),都能找到付款截止日。

Auto-Renewal(自动续约)

识别合同是否自动续约——无论相关条款在"续约"条款、"期限"章节,还是埋在第18页第12.4条款中。

Patient Name(患者姓名)

在化验报告或出院小结上找到患者姓名,即使周围还有医生、机构、转诊医生等其他姓名。

Stamp Present(是否有公章)

检测文档上是否有官方印章或公章——返回是/否,无需印章包含特定文字。

如果某个字段在文档中不存在,对应单元格留空。AI不会用相关字段替代,也不会编造数值。空单元格本身就是准确信息——它告诉你这份文档不包含该数据。

单文档与批量处理:相同列名,多份文件

无论处理一份文档还是三百份,列名方式都同样适用。批量模式下,你一次性上传所有文件,定义一次列名,最终得到一个Excel文件——每行对应一份文档,每列对应你指定的一个字段。

这就是跨格式灵活性在实际工作中的意义所在。现实中的批量处理很少包含完全相同的文档。一个月的供应商发票里,有大供应商导出的数字PDF,有小供应商的扫描纸质发票,还有外勤员工拍摄的收据照片。一轮患者数据采集包括打印的化验报告、手写的入院登记表、系统截图。把它们一起上传,得到一张结构统一的表格,这才是这套方案的核心价值。

处理速度:每页5–10秒。50份单页文档批量处理,10分钟内完成。多页文档(合同、报告)按页数等比例延长。

按文档类型划分的常见使用场景

以下是自定义字段提取替代手工录入最常见的场景,每个场景都对应该文档类型的详细操作指南。

准确率与诚实的局限性说明

对于清晰文档中的印刷文字——数字PDF、质量良好的扫描件、光线合适的照片——识别准确率可达99%。这覆盖了大多数专业文档处理场景。以下几种情况在正式使用前值得了解:

高准确率场景

  • 任意来源的数字PDF
  • 300 DPI或以上的办公室扫描件
  • 光线充足、无明显模糊的手机照片
  • 标准分辨率截图
  • 多语言文档——支持任意语言
  • 含义清晰的标准字段

准确率下降或不适用场景

  • 笔迹密集或潦草的手写内容
  • 低分辨率扫描件、严重阴影、极端倾斜
  • 需要复杂交叉引用或附表才能确定的字段
  • 模糊条款语言的法律解读
  • 判断性任务("这笔交易划算吗?")

常见问题

上传新类型文档前需要做任何配置吗?

不需要。没有模板需要配置,也没有针对文档类型的专项设置。上传任意文档,用普通语言输入列名,AI处理剩余的一切。同一个界面适用于发票、合同、表格和手写笔记照片。

同一批次可以混合不同类型的文档吗?

可以。一个批次可以同时包含发票和收据,或者合同和报价单PDF。每个文件生成一行。如果某列不适用于特定文档类型,该单元格留空。混合格式批次(PDF、扫描件、图片)也支持在同一次上传中处理。

支持哪些文件格式?

支持PDF、JPG、PNG、WebP和AVIF。这涵盖了数字PDF、以上述图片格式保存的扫描文件、手机照片和截图。上传前无需转换文件格式。

列名可以写得多具体?

可以相当具体。"A品项单价(每千克,不含增值税)"是有效的列名,AI会尝试匹配这个精细程度。列名越具体,输出通常越干净,因为AI有更明确的目标。像"金额"这样模糊的名称在不同文档类型中可能捕获不同内容——"发票合计(含税)"这样更具体的名称效果更好。

支持哪些输出格式?

支持Excel(XLSX)、CSV和JSON。对于大多数表格工作流,XLSX是默认格式。CSV适合导入数据库或其他系统。JSON适用于将提取功能集成到自动化流程中的开发者。

有没有办法在提取前先从他人处收集文件?

有。你可以生成一个收集链接——一个可分享的URL——发送给外勤员工、客户或团队成员。他们打开链接,输入一个简短验证码,直接上传文件。对方无需注册账号。文件会自动进入你的处理队列。适用于在批量提取前收集费用收据、巡检照片或客户文件。

任意文档。你的列名。结构化输出。

上传照片、扫描件或PDF——输入你需要的字段——下载干净的Excel文件。无需配置,无需模板,无格式限制。

无需信用卡 PDF、照片、扫描件——任意格式