从HIS检验截图提取数据到Excel:
OCR为什么解决不了这个问题
手里有200张血常规截图,每张22项指标,需要其中6项进Excel。想用OCR提速,扫完发现得到的是整张报告的文字——还是要自己从里面找那6行,逐张对齐到Excel的正确列。OCR省掉了打字,但没省掉最慢的那部分。
慢在哪里:不是打字,是找值和对齐
处理HIS检验截图有两种常见方式,卡住的地方一样:
| 方式 | 省掉了什么 | 还是要自己做什么 |
|---|---|---|
| 手工录入 | — | 看截图 → 找目标行 → 读数值 → 填对应列,逐张重复 |
| OCR识别后整理 | 打字 | 从识别出的大段文字里找目标行 → 复制到对应列,逐张重复 |
OCR做的是"像素变文字",它不知道你要哪几行,也不知道这些行应该落在Excel的哪一列。这段"从文字到结构化表格"的路,无论是手工录入还是整理OCR输出,都要自己走。200张截图,差别不大。
真正的解法:告诉工具你要哪几列,让它直接输出
问题的根源是工具不知道你要什么。所以解法是:你先告诉它。
在简录AI里,你上传截图之前先定义列名——写清楚你要提取哪些指标、列名叫什么、用什么单位:
- 血红蛋白(g/L)
- 白细胞计数(×10⁹/L)
- 中性粒细胞绝对值(×10⁹/L)
- 血小板(×10⁹/L)
- 血肌酐(μmol/L)
- 尿素氮(mmol/L)
工具按这套列名从每张截图里做语义匹配:你写"血肌酐",它识别截图里的 SCr、CREA、血清肌酐(Cr);你写"中性粒细胞绝对值",它找 NEUT# 那行,不是旁边的 NEUT%。每张截图输出一行,列名和你定义的完全一致。200张截图批量上传,导出一个Excel,直接进统计软件。
这套列名保存为模板后整个课题复用。基线和随访截图用同一套列名,导出结构相同,不需要再对齐。
批量处理前先测5张
不同医院、不同时期的HIS界面字段名可能有差异。批量处理之前,先选5张有代表性的截图测试——确认每个字段提取正确,特别是 NEUT# 和 NEUT% 没有混淆(两列数值都在合理范围,手工录入时最难发现这类错误)。测试通过后,同类截图的准确率会很稳定,后续只需少量抽检。