从任意文档中提取指定字段——照片、扫描件、PDF全支持

问题从来不是"电脑能不能读取这份文档"。OCR识别文字已经可靠运行了几十年。真正重要的问题——也是大多数工具至今仍没能很好回答的——是：它能不能只给我需要的字段，以我需要的结构输出，无论文档是什么格式？这是另一个问题，需要另一种解法。

OCR与字段提取：实际区别在哪里

OCR（光学字符识别）将图像中的文字转换为机器可读的字符。给它一张收据照片，它返回一段镜像纸面内容的文本字符串。这个输出确实有用：可搜索、可复制，也可以输入其他系统。但它对文字含义毫无感知，不知道哪些部分是你需要的。

指定字段提取的出发点完全不同。它不是问"这份文档里有什么文字"，而是问"这份文档在我定义的字段上有哪些值"。输出不是文字转录，而是一个结构化数据集——你的列名是表头，文档内容填充每一行。

方式	输入	输出	结构由谁定义
基础OCR	图片 / PDF	原始文本字符串	无——纯文字倾倒
PDF转Excel工具	PDF	镜像原始版面的表格	文档本身
模板式提取工具	PDF / 图片	预设字段（发票号、日期、合计……）	软件厂商
自定义字段提取	任意格式	你的列名，从任意版面填充	你自己

你输入的列名就是输出表格的表头。AI的任务是在每份文档中定位对应的值——无论该值出现在页面哪个位置，文档如何称呼它，或文件是什么格式。

"任意文档"涵盖哪些范围

这种方式支持的输入类型比大多数文档工具更广泛，因为底层技术是视觉大语言模型，而非格式解析器。它像人一样读取图像——理解内容，而不是解码文件结构。

支持的输入格式

数字PDF

带文字层的PDF，来源不限——财务系统、ERP导出、Word转PDF等。

扫描文件

办公室扫描仪输出、存档扫描件、传真文件保存为PDF或图片格式。

文档照片

手机拍摄的收据、发票、表格、白板、印刷表格。需光线合理、无严重模糊。

截图

网页截图、仪表盘、系统界面、支付确认、订单汇总页面的截图。

手写文件

手写表格、现场记录、手签纸质文件。准确率因笔迹工整程度和扫描质量而异。

支持的文档类型

发票和收据

合同和协议

供应商报价单

采购单和装箱单

银行和支付账单

调查和登记表

医疗和化验报告

运单和物流单据

身份证/驾照/证书

现场巡检照片

列名在实际操作中如何生效

你提供的列名对AI起到语义指令的作用。你不需要知道某个字段在页面哪个位置，文档怎么称呼它，或者信息是明确标注的还是隐含的。普通语言的字段名就足够了。

以下是AI如何解读列名的几个示例：

Due Date（付款截止日）

无论发票写的是"Due Date"、"Payment Due"、"Pay By"，还是隐含地写"Net 30 from invoice date"（此时AI会计算出具体日期），都能找到付款截止日。

Auto-Renewal（自动续约）

识别合同是否自动续约——无论相关条款在"续约"条款、"期限"章节，还是埋在第18页第12.4条款中。

Patient Name（患者姓名）

在化验报告或出院小结上找到患者姓名，即使周围还有医生、机构、转诊医生等其他姓名。

Stamp Present（是否有公章）

检测文档上是否有官方印章或公章——返回是/否，无需印章包含特定文字。

如果某个字段在文档中不存在，对应单元格留空。AI不会用相关字段替代，也不会编造数值。空单元格本身就是准确信息——它告诉你这份文档不包含该数据。

单文档与批量处理：相同列名，多份文件

无论处理一份文档还是三百份，列名方式都同样适用。批量模式下，你一次性上传所有文件，定义一次列名，最终得到一个Excel文件——每行对应一份文档，每列对应你指定的一个字段。

这就是跨格式灵活性在实际工作中的意义所在。现实中的批量处理很少包含完全相同的文档。一个月的供应商发票里，有大供应商导出的数字PDF，有小供应商的扫描纸质发票，还有外勤员工拍摄的收据照片。一轮患者数据采集包括打印的化验报告、手写的入院登记表、系统截图。把它们一起上传，得到一张结构统一的表格，这才是这套方案的核心价值。

处理速度：每页5–10秒。50份单页文档批量处理，10分钟内完成。多页文档（合同、报告）按页数等比例延长。

按文档类型划分的常见使用场景

以下是自定义字段提取替代手工录入最常见的场景，每个场景都对应该文档类型的详细操作指南。

发票与收据

提取供应商名称、发票号、日期、采购单号、税额、合计——支持任意供应商格式、任意版面。每份发票一行。

合同与协议

从一批供应商合同中提取签约方、合同金额、生效日期、到期日、自动续约条款、适用法律。

供应商报价与询价单

将多家供应商报价PDF转化为对比表——单价、最小起订量、交货周期、付款条款——一次批量处理完成。

批量应付账款/费用报销处理

一次处理40–200份发票或费用收据。一张表格，每份文档一行，直接粘贴到应付账款跟踪表中。

直接导入Google表格

通过Google表格侧边栏插件上传文件、指定字段，直接将提取数据追加到表格中，无需下载文件。

手写表格与检查清单

从手写入院登记表、巡检清单、纸质调查表中提取字段——包括复选框状态和签名检测。

准确率与诚实的局限性说明

对于清晰文档中的印刷文字——数字PDF、质量良好的扫描件、光线合适的照片——识别准确率可达99%。这覆盖了大多数专业文档处理场景。以下几种情况在正式使用前值得了解：

高准确率场景

任意来源的数字PDF
300 DPI或以上的办公室扫描件
光线充足、无明显模糊的手机照片
标准分辨率截图
多语言文档——支持任意语言
含义清晰的标准字段

准确率下降或不适用场景

笔迹密集或潦草的手写内容
低分辨率扫描件、严重阴影、极端倾斜
需要复杂交叉引用或附表才能确定的字段
模糊条款语言的法律解读
判断性任务（"这笔交易划算吗？"）

常见问题

上传新类型文档前需要做任何配置吗？

不需要。没有模板需要配置，也没有针对文档类型的专项设置。上传任意文档，用普通语言输入列名，AI处理剩余的一切。同一个界面适用于发票、合同、表格和手写笔记照片。

同一批次可以混合不同类型的文档吗？

可以。一个批次可以同时包含发票和收据，或者合同和报价单PDF。每个文件生成一行。如果某列不适用于特定文档类型，该单元格留空。混合格式批次（PDF、扫描件、图片）也支持在同一次上传中处理。

支持哪些文件格式？

支持PDF、JPG、PNG、WebP和AVIF。这涵盖了数字PDF、以上述图片格式保存的扫描文件、手机照片和截图。上传前无需转换文件格式。

列名可以写得多具体？

可以相当具体。"A品项单价（每千克，不含增值税）"是有效的列名，AI会尝试匹配这个精细程度。列名越具体，输出通常越干净，因为AI有更明确的目标。像"金额"这样模糊的名称在不同文档类型中可能捕获不同内容——"发票合计（含税）"这样更具体的名称效果更好。

支持哪些输出格式？

支持Excel（XLSX）、CSV和JSON。对于大多数表格工作流，XLSX是默认格式。CSV适合导入数据库或其他系统。JSON适用于将提取功能集成到自动化流程中的开发者。

有没有办法在提取前先从他人处收集文件？

有。你可以生成一个收集链接——一个可分享的URL——发送给外勤员工、客户或团队成员。他们打开链接，输入一个简短验证码，直接上传文件。对方无需注册账号。文件会自动进入你的处理队列。适用于在批量提取前收集费用收据、巡检照片或客户文件。

任意文档。你的列名。结构化输出。

上传照片、扫描件或PDF——输入你需要的字段——下载干净的Excel文件。无需配置，无需模板，无格式限制。

免费试用简录AI 浏览所有文章

无需信用卡 PDF、照片、扫描件——任意格式