100份病历,
手工录入到底要多久
做回顾性研究的文章很多,讲研究设计、变量定义、统计方法,写得相当详细。但有一个问题,这些文章几乎都没有正面回答:数据采集阶段,实际要花多长时间?
不是"几周"这种模糊说法,而是具体的:100份病历,提取20个字段,从打开HIS到导出Excel,整个过程要坐在那里多少小时。
为什么没人把这件事说清楚
回顾性研究的方法文章,重心在"怎么设计"而不是"怎么执行"。变量选择、纳排标准、偏倚控制——这些讨论确实重要,是研究质量的核心。但文章结构决定了,到"数据采集"这一步,通常就是一句"从电子病历系统中提取以下变量",然后接着讲统计方法了。
执行层面的细节——要坐多少小时、中间会遇到哪些卡壳、哪个环节最容易出错——这些内容既不适合写进学术论文,也不适合写进方法教程。所以它们就以经验的形式流传,导师偶尔提一句,师兄师姐传授一下,但从来没有被认真算过。
结果就是:很多研究生在立项时低估了数据采集的工作量,等到实际开始录入才发现,这一步要吃掉整个项目里最大的一块时间。
时间去哪了
以一份住院病历为例,假设你要提取20个字段:基本信息4个,入院检验8个,影像报告结论4个,出院结局4个。
一份病历的实际操作流程大概是这样的:打开HIS,找到对应患者,进入住院记录界面,翻到入院检验那一栏,检验单可能有好几页,找到你需要的那几项——血常规、肝功、肾功分布在不同的子报告里,分别打开、找字段、记下来,切换窗口,在Excel里找到对应的行列,逐个填入。影像报告通常在另一个模块,再切换过去,读结论,摘出你要的那几个词,再切回Excel。
这个过程里,真正在"录入"的时间只占一部分,另一部分是在找、在读、在判断。尤其是影像报告的文字描述,往往要读两三遍才能确认你需要的那个信息在不在里面,以及该怎么编码。
单份病历下来,保守估计15分钟,稍微复杂的(病历时间跨度长、多次住院记录交叉)要30分钟以上。
疲劳才是真正的杀手
时间还不是最大的问题,疲劳才是。
高度重复的操作对注意力的消耗比想象中快。前30份录入,你还能保持仔细核对;到了第50份,窗口切换的次数已经让你有点眩晕,偶尔会把A列的值填进B列,或者漏录了一个字段,没发现就跳到下一份了。
等到发现错误,往往是在后续做数据清洗或统计的时候。到那时候,你已经不记得当时哪份病历对应哪个值,要重新翻回去查。这个返工的时间,没有人在立项时算进去,但它是真实会发生的。
研究显示人工录入的平均错误率在5%-10%之间,而且错误分布不均匀——越靠后的批次错误率越高,高度疲劳状态下可以更高。100份病历里有5-10份有错,听起来不多,但如果这些错误集中在某几个关键变量上,对后续分析的影响可能相当大。
样本量翻倍,问题不是线性放大的
很多硕士论文的样本量在200-300例,博士的回顾性研究常见500例以上。把上面的数字等比例放大:
- 200例 × 20字段:约 65-70 小时,接近两周
- 500例 × 20字段:约 165 小时,超过四周
但实际上并不是线性放大。样本量越大,录入质量越难维持。500例不可能由一个人在保持高专注度的前提下录完,要么分批做(拉长周期),要么找人帮(多出沟通和质控成本),要么降低仔细程度(提高错误率)。三个选项都有代价。
这不是在劝你缩减样本量,而是说:如果你的研究需要这个量级的数据,录入方式本身值得认真对待,而不是默认"慢慢录就行了"。
"快"是什么量级
简录AI这类工具针对的就是这个环节。工作方式不复杂:对HIS报告页面截图,批量上传,告诉工具你要的字段名称(比如"血红蛋白"、"血肌酐"、"出院诊断"),工具逐张识别,汇总导出一张Excel。
处理速度是单页5-10秒,相当于人工速度的18倍以上。100份截图,批量处理约30-60分钟,加上上传和定义字段的准备时间,大概是2-3小时能拿到初始表格。
截图本身的时间没有省——你还是要逐例打开HIS、截图。这部分大约是2-3小时。但把截图"变成"结构化数据这一步,不再需要33小时,缩短到了1-2小时的复核。
整体从33小时压缩到5-6小时,节省的时间足够多写几节分析,或者提前一两周进入统计阶段。对答辩时间线紧张的研究生来说,这个差距是实质性的。
什么情况下值得用工具
样本量50例以内、字段很少(5个以内)、只做一次:手工录入勉强可以接受。样本量超过100例,或者字段超过15个,或者需要多轮更新数据:这时候工具的时间收益远超学习成本。最简单的判断标准——如果你估算手工录入要超过10小时,换工具就是合算的。