2天录入2000份病历数据：一个真实的使用案例

2000份病例，如果手工逐条录入，按每份20分钟估算，需要667小时，相当于一个人不间断工作83天。

一个临床科研团队用简录AI把这个任务压缩进了2天。这篇文章记录他们的实际工作流，重点不是"AI比人快"这个显而易见的结论，而是他们的具体操作方式——尤其是一个大多数人想不到的关键决策：图片不分类，全部丢进去。

他们面对的是什么

这是一个多科室的回顾性研究，需要从HIS系统收集2000余份患者的多类数据：入院基本信息、血常规、肝肾功能、影像报告结论、出院诊断、用药记录……每个患者涉及的截图少则三四张，多则七八张，类型各不相同。

截图阶段做完，团队手里是一个几千张图的文件夹，文件名大多是系统自动生成的流水号，没有按患者或按检验类型做分类整理。

如果用传统思路处理这批图片，第一步就很麻烦：要先把几千张截图按类型分类——血常规一组、肝功能一组、影像报告一组……这个分类整理本身就需要大量时间，然后每种类型还要配一套提取规则，分批处理，最后再把多批结果按患者ID合并到一张表里。

他们没有这么做。

关键决策：一套规则，全部字段，不排序

他们的做法是：把所有想要提取的字段——无论来自哪种检验、哪个HIS页面——全部写进同一套匹配规则里。

这套规则大约有三四十个字段，从"姓名"、"住院号"、"入院日期"，到"白细胞"、"血红蛋白"、"血肌酐"、"ALT"、"AST"，再到"影像报告结论"、"出院诊断"、"手术名称"……混在一起，没有分类，就是一个大列表。

然后把几千张图全部上传，不排序，顺序随机，直接提交处理。

结果：每张图片处理完成后，工具识别这张图里有哪些字段出现在匹配规则里，就把对应的值填入对应的列；图片里没有的字段，那一列就留空。最终导出的Excel，每一行对应一张图片，每一列对应一个定义过的字段，出现了就有值，没出现就空着。

为什么这样能工作

简录AI的匹配是语义级别的，不是模板级别的。它不依赖"这张图是血常规，所以去第三行第二列找白细胞"，而是理解"白细胞"这个概念，在任意格式的图片里找到它对应的值。这意味着同一套规则，可以同时处理不同医院、不同版式、不同类型的报告，不需要为每种格式单独配置。

完整的工作流，步骤拆解

第一步：梳理需要提取的字段。把研究需要的所有变量列成清单，这个工作和工具无关，本来就是研究设计阶段应该做的。字段名称尽量用自然语言写，不需要和HIS里的字段名完全一致。比如写"血肌酐"，工具可以匹配到截图里的"SCr"、"CREA"、"血清肌酐(Cr)"；写"出院诊断"，可以匹配到"出院诊断"或"主要诊断"等不同写法。

第二步：在简录AI里建立匹配规则。把字段清单输入到匹配规则里，每个字段成为Excel输出的一列。这一步通常十几分钟内可以完成，包括给每个字段写一两句提取说明（比如"血肌酐：取数值，单位μmol/L，不含参考范围"）。

第三步：批量上传图片。把几千张截图全部选中上传，不需要预先排序或分类。这是整个流程里最省力的一步——原本需要花大量时间做的图片分类整理工作，在这个方案里不存在。

第四步：等待处理，导出结果。批量任务处理完成后，导出Excel。每行一张图，列是你定义的字段，有值就填，没有就空。

第五步：按患者ID合并。同一个患者的多张截图会对应多行，用Excel的VLOOKUP或数据透视，或者直接用Python/R，按患者ID把同一人的多行合并成一行，把各字段填到对应位置。这个合并步骤通常半小时内可以完成。

第六步：抽查核验。随机抽取5%-10%的条目，对照原始截图核查提取结果。这一步不能跳过，是数据质量的最后保障。

省掉的那一步，远比想象中重要

回到最开始的那个问题：图片分类整理。

对于2000份病例、每人平均5张截图，这意味着约10000张图片。如果要手工分类，假设每张图片看一眼、拖到对应文件夹需要10秒，就是接近28小时——还不算分错、漏分、后来发现分类标准不够细要重新整理这些情况。

这28小时完全是无意义的前置工作，对数据质量没有任何贡献，只是为了让工具能够处理。简录AI的"大杂烩"匹配方式，把这个前置工作归零了。

这不是小优化。对于大批量数据的采集来说，省掉分类整理这一步，意味着截图完成之后可以立刻进入处理阶段，没有等待，没有繁琐的人工准备，数据采集和数据导出之间的时间差压缩到最短。

2天是怎么来的

把这个团队的时间分布大致还原一下：

截图收集：2000份病例，每份约5张截图，两个人在有HIS访问权限的环境下分工截图，大约用了1天多。这部分时间没有被工具压缩，是固定成本。
规则配置：整理字段清单、在工具里建立匹配规则，约2小时。
批量上传和处理：约1万张图片批量上传，处理时间约数小时，期间团队不需要守着，可以做其他事。
结果导出和合并：按患者ID合并多行数据，约1-2小时。
抽查核验：随机抽取约200条（10%比例）对照原图核查，约半天。

整个流程最耗时的部分是截图收集，而不是数据处理。这个顺序和传统手工录入完全相反——传统方式里，截图结束才是噩梦的开始；这个方案里，截图结束之后剩下的工作已经所剩无几。

这个案例说明的不只是"AI比人快"，而是整个工作流的结构变了：原来是截图→分类整理→逐类配置→分批处理→合并结果→核查，现在是截图→一次上传→合并→核查。中间砍掉的那几步，才是实际节省时间最多的地方。

需要说明的前提条件

这个案例的数据以HIS打印的检验报告和结构化报告为主，属于印刷体为主的场景，识别准确率有保障。如果你的数据里有大量手写病历、潦草批注、或者扫描质量很差的纸质档案，情况会不一样，需要评估手写识别的准确率是否满足你的要求。

另外，"大杂烩"的匹配规则能工作，前提是字段定义要足够清晰。如果两个字段名太相近（比如"血肌酐"和"尿肌酐"），在字段说明里写清楚区分方式，可以避免混淆。配置规则时花一点时间在说明上，后面的处理结果会更干净。

大批量数据录入的瓶颈不是AI处理速度，而是工作流设计。这个团队最关键的一步，是决定不做图片分类，把这个准备工作的负担完全转移给了工具。这个决策省下来的时间，比处理本身快多少倍更值得关注。

2天录入2000份病历数据：
一个真实的使用案例

他们面对的是什么

关键决策：一套规则，全部字段，不排序

为什么这样能工作

完整的工作流，步骤拆解

省掉的那一步，远比想象中重要

2天是怎么来的

需要说明的前提条件

试试"大杂烩"匹配规则

2天录入2000份病历数据： 一个真实的使用案例

他们面对的是什么

关键决策：一套规则，全部字段，不排序

为什么这样能工作

完整的工作流，步骤拆解

省掉的那一步，远比想象中重要

2天是怎么来的

需要说明的前提条件

试试"大杂烩"匹配规则

2天录入2000份病历数据：
一个真实的使用案例