从HIS检验截图提取数据到Excel: OCR为什么解决不了这个问题

手里有200张血常规截图,每张22项指标,需要其中6项进Excel。想用OCR提速,扫完发现得到的是整张报告的文字——还是要自己从里面找那6行,逐张对齐到Excel的正确列。OCR省掉了打字,但没省掉最慢的那部分。

HIS检验报告数据提取

慢在哪里:不是打字,是找值和对齐

处理HIS检验截图有两种常见方式,卡住的地方一样:

方式 省掉了什么 还是要自己做什么
手工录入 看截图 → 找目标行 → 读数值 → 填对应列,逐张重复
OCR识别后整理 打字 从识别出的大段文字里找目标行 → 复制到对应列,逐张重复

OCR做的是"像素变文字",它不知道你要哪几行,也不知道这些行应该落在Excel的哪一列。这段"从文字到结构化表格"的路,无论是手工录入还是整理OCR输出,都要自己走。200张截图,差别不大。

真正的解法:告诉工具你要哪几列,让它直接输出

问题的根源是工具不知道你要什么。所以解法是:你先告诉它。

在简录AI里,你上传截图之前先定义列名——写清楚你要提取哪些指标、列名叫什么、用什么单位:

  • 血红蛋白(g/L)
  • 白细胞计数(×10⁹/L)
  • 中性粒细胞绝对值(×10⁹/L)
  • 血小板(×10⁹/L)
  • 血肌酐(μmol/L)
  • 尿素氮(mmol/L)

工具按这套列名从每张截图里做语义匹配:你写"血肌酐",它识别截图里的 SCr、CREA、血清肌酐(Cr);你写"中性粒细胞绝对值",它找 NEUT# 那行,不是旁边的 NEUT%。每张截图输出一行,列名和你定义的完全一致。200张截图批量上传,导出一个Excel,直接进统计软件。

这套列名保存为模板后整个课题复用。基线和随访截图用同一套列名,导出结构相同,不需要再对齐。

批量处理前先测5张

不同医院、不同时期的HIS界面字段名可能有差异。批量处理之前,先选5张有代表性的截图测试——确认每个字段提取正确,特别是 NEUT# 和 NEUT% 没有混淆(两列数值都在合理范围,手工录入时最难发现这类错误)。测试通过后,同类截图的准确率会很稳定,后续只需少量抽检。

试试定义你的提取字段

上传一张HIS检验截图,输入你课题里的字段名,看导出结果是否符合预期。

开始免费使用