从HIS检验截图提取数据到Excel：OCR为什么解决不了这个问题

从HIS检验截图提取数据到Excel：
OCR为什么解决不了这个问题

手里有200张血常规截图，每张22项指标，需要其中6项进Excel。想用OCR提速，扫完发现得到的是整张报告的文字——还是要自己从里面找那6行，逐张对齐到Excel的正确列。OCR省掉了打字，但没省掉最慢的那部分。

慢在哪里：不是打字，是找值和对齐

处理HIS检验截图有两种常见方式，卡住的地方一样：

方式	省掉了什么	还是要自己做什么
手工录入	—	看截图 → 找目标行 → 读数值 → 填对应列，逐张重复
OCR识别后整理	打字	从识别出的大段文字里找目标行 → 复制到对应列，逐张重复

OCR做的是"像素变文字"，它不知道你要哪几行，也不知道这些行应该落在Excel的哪一列。这段"从文字到结构化表格"的路，无论是手工录入还是整理OCR输出，都要自己走。200张截图，差别不大。

问题的根源是工具不知道你要什么。所以解法是：你先告诉它。

在简录AI里，你上传截图之前先定义列名——写清楚你要提取哪些指标、列名叫什么、用什么单位：

工具按这套列名从每张截图里做语义匹配：你写"血肌酐"，它识别截图里的 SCr、CREA、血清肌酐(Cr)；你写"中性粒细胞绝对值"，它找 NEUT# 那行，不是旁边的 NEUT%。每张截图输出一行，列名和你定义的完全一致。200张截图批量上传，导出一个Excel，直接进统计软件。

这套列名保存为模板后整个课题复用。基线和随访截图用同一套列名，导出结构相同，不需要再对齐。

不同医院、不同时期的HIS界面字段名可能有差异。批量处理之前，先选5张有代表性的截图测试——确认每个字段提取正确，特别是 NEUT# 和 NEUT% 没有混淆（两列数值都在合理范围，手工录入时最难发现这类错误）。测试通过后，同类截图的准确率会很稳定，后续只需少量抽检。

上传一张HIS检验截图，输入你课题里的字段名，看导出结果是否符合预期。