2天录入2000份病历数据:
一个真实的使用案例
2000份病例,如果手工逐条录入,按每份20分钟估算,需要667小时,相当于一个人不间断工作83天。
一个临床科研团队用简录AI把这个任务压缩进了2天。这篇文章记录他们的实际工作流,重点不是"AI比人快"这个显而易见的结论,而是他们的具体操作方式——尤其是一个大多数人想不到的关键决策:图片不分类,全部丢进去。
他们面对的是什么
这是一个多科室的回顾性研究,需要从HIS系统收集2000余份患者的多类数据:入院基本信息、血常规、肝肾功能、影像报告结论、出院诊断、用药记录……每个患者涉及的截图少则三四张,多则七八张,类型各不相同。
截图阶段做完,团队手里是一个几千张图的文件夹,文件名大多是系统自动生成的流水号,没有按患者或按检验类型做分类整理。
如果用传统思路处理这批图片,第一步就很麻烦:要先把几千张截图按类型分类——血常规一组、肝功能一组、影像报告一组……这个分类整理本身就需要大量时间,然后每种类型还要配一套提取规则,分批处理,最后再把多批结果按患者ID合并到一张表里。
他们没有这么做。
关键决策:一套规则,全部字段,不排序
他们的做法是:把所有想要提取的字段——无论来自哪种检验、哪个HIS页面——全部写进同一套匹配规则里。
这套规则大约有三四十个字段,从"姓名"、"住院号"、"入院日期",到"白细胞"、"血红蛋白"、"血肌酐"、"ALT"、"AST",再到"影像报告结论"、"出院诊断"、"手术名称"……混在一起,没有分类,就是一个大列表。
然后把几千张图全部上传,不排序,顺序随机,直接提交处理。
结果:每张图片处理完成后,工具识别这张图里有哪些字段出现在匹配规则里,就把对应的值填入对应的列;图片里没有的字段,那一列就留空。最终导出的Excel,每一行对应一张图片,每一列对应一个定义过的字段,出现了就有值,没出现就空着。
为什么这样能工作
简录AI的匹配是语义级别的,不是模板级别的。它不依赖"这张图是血常规,所以去第三行第二列找白细胞",而是理解"白细胞"这个概念,在任意格式的图片里找到它对应的值。这意味着同一套规则,可以同时处理不同医院、不同版式、不同类型的报告,不需要为每种格式单独配置。
完整的工作流,步骤拆解
第一步:梳理需要提取的字段。把研究需要的所有变量列成清单,这个工作和工具无关,本来就是研究设计阶段应该做的。字段名称尽量用自然语言写,不需要和HIS里的字段名完全一致。比如写"血肌酐",工具可以匹配到截图里的"SCr"、"CREA"、"血清肌酐(Cr)";写"出院诊断",可以匹配到"出院诊断"或"主要诊断"等不同写法。
第二步:在简录AI里建立匹配规则。把字段清单输入到匹配规则里,每个字段成为Excel输出的一列。这一步通常十几分钟内可以完成,包括给每个字段写一两句提取说明(比如"血肌酐:取数值,单位μmol/L,不含参考范围")。
第三步:批量上传图片。把几千张截图全部选中上传,不需要预先排序或分类。这是整个流程里最省力的一步——原本需要花大量时间做的图片分类整理工作,在这个方案里不存在。
第四步:等待处理,导出结果。批量任务处理完成后,导出Excel。每行一张图,列是你定义的字段,有值就填,没有就空。
第五步:按患者ID合并。同一个患者的多张截图会对应多行,用Excel的VLOOKUP或数据透视,或者直接用Python/R,按患者ID把同一人的多行合并成一行,把各字段填到对应位置。这个合并步骤通常半小时内可以完成。
第六步:抽查核验。随机抽取5%-10%的条目,对照原始截图核查提取结果。这一步不能跳过,是数据质量的最后保障。
省掉的那一步,远比想象中重要
回到最开始的那个问题:图片分类整理。
对于2000份病例、每人平均5张截图,这意味着约10000张图片。如果要手工分类,假设每张图片看一眼、拖到对应文件夹需要10秒,就是接近28小时——还不算分错、漏分、后来发现分类标准不够细要重新整理这些情况。
这28小时完全是无意义的前置工作,对数据质量没有任何贡献,只是为了让工具能够处理。简录AI的"大杂烩"匹配方式,把这个前置工作归零了。
这不是小优化。对于大批量数据的采集来说,省掉分类整理这一步,意味着截图完成之后可以立刻进入处理阶段,没有等待,没有繁琐的人工准备,数据采集和数据导出之间的时间差压缩到最短。
2天是怎么来的
把这个团队的时间分布大致还原一下:
- 截图收集:2000份病例,每份约5张截图,两个人在有HIS访问权限的环境下分工截图,大约用了1天多。这部分时间没有被工具压缩,是固定成本。
- 规则配置:整理字段清单、在工具里建立匹配规则,约2小时。
- 批量上传和处理:约1万张图片批量上传,处理时间约数小时,期间团队不需要守着,可以做其他事。
- 结果导出和合并:按患者ID合并多行数据,约1-2小时。
- 抽查核验:随机抽取约200条(10%比例)对照原图核查,约半天。
整个流程最耗时的部分是截图收集,而不是数据处理。这个顺序和传统手工录入完全相反——传统方式里,截图结束才是噩梦的开始;这个方案里,截图结束之后剩下的工作已经所剩无几。
需要说明的前提条件
这个案例的数据以HIS打印的检验报告和结构化报告为主,属于印刷体为主的场景,识别准确率有保障。如果你的数据里有大量手写病历、潦草批注、或者扫描质量很差的纸质档案,情况会不一样,需要评估手写识别的准确率是否满足你的要求。
另外,"大杂烩"的匹配规则能工作,前提是字段定义要足够清晰。如果两个字段名太相近(比如"血肌酐"和"尿肌酐"),在字段说明里写清楚区分方式,可以避免混淆。配置规则时花一点时间在说明上,后面的处理结果会更干净。