100份病历，手工录入到底要多久

做回顾性研究的文章很多，讲研究设计、变量定义、统计方法，写得相当详细。但有一个问题，这些文章几乎都没有正面回答：数据采集阶段，实际要花多长时间？

不是"几周"这种模糊说法，而是具体的：100份病历，提取20个字段，从打开HIS到导出Excel，整个过程要坐在那里多少小时。

为什么没人把这件事说清楚

回顾性研究的方法文章，重心在"怎么设计"而不是"怎么执行"。变量选择、纳排标准、偏倚控制——这些讨论确实重要，是研究质量的核心。但文章结构决定了，到"数据采集"这一步，通常就是一句"从电子病历系统中提取以下变量"，然后接着讲统计方法了。

执行层面的细节——要坐多少小时、中间会遇到哪些卡壳、哪个环节最容易出错——这些内容既不适合写进学术论文，也不适合写进方法教程。所以它们就以经验的形式流传，导师偶尔提一句，师兄师姐传授一下，但从来没有被认真算过。

结果就是：很多研究生在立项时低估了数据采集的工作量，等到实际开始录入才发现，这一步要吃掉整个项目里最大的一块时间。

时间去哪了

以一份住院病历为例，假设你要提取20个字段：基本信息4个，入院检验8个，影像报告结论4个，出院结局4个。

一份病历的实际操作流程大概是这样的：打开HIS，找到对应患者，进入住院记录界面，翻到入院检验那一栏，检验单可能有好几页，找到你需要的那几项——血常规、肝功、肾功分布在不同的子报告里，分别打开、找字段、记下来，切换窗口，在Excel里找到对应的行列，逐个填入。影像报告通常在另一个模块，再切换过去，读结论，摘出你要的那几个词，再切回Excel。

这个过程里，真正在"录入"的时间只占一部分，另一部分是在找、在读、在判断。尤其是影像报告的文字描述，往往要读两三遍才能确认你需要的那个信息在不在里面，以及该怎么编码。

单份病历下来，保守估计15分钟，稍微复杂的（病历时间跨度长、多次住院记录交叉）要30分钟以上。

100份 × 20分钟 = 2000分钟，约33小时。这是一周工作日按8小时算、不做任何其他事的情况下，刚好能录完的量。实际当然不可能全天不停，加上查房、写病历、上课，分摊到三到四周才现实。

疲劳才是真正的杀手

时间还不是最大的问题，疲劳才是。

高度重复的操作对注意力的消耗比想象中快。前30份录入，你还能保持仔细核对；到了第50份，窗口切换的次数已经让你有点眩晕，偶尔会把A列的值填进B列，或者漏录了一个字段，没发现就跳到下一份了。

等到发现错误，往往是在后续做数据清洗或统计的时候。到那时候，你已经不记得当时哪份病历对应哪个值，要重新翻回去查。这个返工的时间，没有人在立项时算进去，但它是真实会发生的。

研究显示人工录入的平均错误率在5%-10%之间，而且错误分布不均匀——越靠后的批次错误率越高，高度疲劳状态下可以更高。100份病历里有5-10份有错，听起来不多，但如果这些错误集中在某几个关键变量上，对后续分析的影响可能相当大。

样本量翻倍，问题不是线性放大的

很多硕士论文的样本量在200-300例，博士的回顾性研究常见500例以上。把上面的数字等比例放大：

200例 × 20字段：约 65-70 小时，接近两周
500例 × 20字段：约 165 小时，超过四周

但实际上并不是线性放大。样本量越大，录入质量越难维持。500例不可能由一个人在保持高专注度的前提下录完，要么分批做（拉长周期），要么找人帮（多出沟通和质控成本），要么降低仔细程度（提高错误率）。三个选项都有代价。

这不是在劝你缩减样本量，而是说：如果你的研究需要这个量级的数据，录入方式本身值得认真对待，而不是默认"慢慢录就行了"。

"快"是什么量级

简录AI这类工具针对的就是这个环节。工作方式不复杂：对HIS报告页面截图，批量上传，告诉工具你要的字段名称（比如"血红蛋白"、"血肌酐"、"出院诊断"），工具逐张识别，汇总导出一张Excel。

处理速度是单页5-10秒，相当于人工速度的18倍以上。100份截图，批量处理约30-60分钟，加上上传和定义字段的准备时间，大概是2-3小时能拿到初始表格。

截图本身的时间没有省——你还是要逐例打开HIS、截图。这部分大约是2-3小时。但把截图"变成"结构化数据这一步，不再需要33小时，缩短到了1-2小时的复核。

整体从33小时压缩到5-6小时，节省的时间足够多写几节分析，或者提前一两周进入统计阶段。对答辩时间线紧张的研究生来说，这个差距是实质性的。

什么情况下值得用工具

样本量50例以内、字段很少（5个以内）、只做一次：手工录入勉强可以接受。样本量超过100例，或者字段超过15个，或者需要多轮更新数据：这时候工具的时间收益远超学习成本。最简单的判断标准——如果你估算手工录入要超过10小时，换工具就是合算的。

没有人会在回顾性研究的方法论文章里告诉你数据录入要花多少时间，因为那不是方法论问题。但对你的项目进度来说，它是最实际的问题之一。提前把这笔账算清楚，比陷进去之后再找出路要好得多。

100份病历，
手工录入到底要多久

为什么没人把这件事说清楚

时间去哪了

疲劳才是真正的杀手

样本量翻倍，问题不是线性放大的

"快"是什么量级

什么情况下值得用工具

把33小时压缩到5小时

100份病历， 手工录入到底要多久

为什么没人把这件事说清楚

时间去哪了

疲劳才是真正的杀手

样本量翻倍，问题不是线性放大的

"快"是什么量级

什么情况下值得用工具

把33小时压缩到5小时

100份病历，
手工录入到底要多久