临床研究数据采集: 截图录入为什么总是出问题

数据收集完了准备做统计,打开 Excel,发现血肌酐这一列有些行单位是 μmol/L,有些是 mg/dL——因为三个月前你自己录的和上个月同学帮你录的用了不同的 HIS 版本。或者 WBC 列的值有一部分其实是 NEUT%(百分比),不是绝对值,因为这两行在截图里挨得太近了。

在统计前发现这类问题,代价是重新核对原始截图,少则几小时,多则几天。在发现之前就提交了分析,代价更难估算。这类问题出现得如此频繁,以至于很多人默认它就是临床科研的一部分。实际上它有明确的来源,也有办法避免。

临床科研数据采集与质量控制

先说一个很多人不清楚的事:为什么不直接从 HIS 导出数据

理论上医院 HIS 后台有完整的结构化数据库,技术上完全可以按需导出。为什么研究生还在拍照截图?

原因在于权限和流程。国内三甲医院的数据导出通常需要:科研处审批、伦理委员会备案、信息科配合导出,部分医院还要医务处签字。走完整流程,快的 2–3 周,复杂的超过一个月。导出格式由 IT 部门决定,字段和格式不一定符合你的研究需要。

对于 30–200 例、多个时间点随访的课题,这个流程的成本远高于截图录入的成本。所以研究生的实际工作流程从来都是:查房拍照 → 手动录 Excel。这不是偷懒,是在现有权限体系下唯一可行的路径,短期内不会改变。

既然截图是现实约束,问题就变成:如何让这个工作流更可靠?而截图录入出问题,根源不是执行层面,是设计层面——在开始收集之前,没有明确定义"我要哪些字段、字段名叫什么、用什么单位"。

数据不一致的来源:没有事先定义提取规则

手工录入过程里有大量即兴决策。同一个指标,今天你叫"血红蛋白",明天你写"Hb",后天同学帮录时写"HGB"。单位有时跟着 HIS 界面走,有时换算了,有时漏写了。中性粒细胞绝对值和百分比挨在一行,凌晨录数据时很难每次都确认拿了对的那个值。

这些不是粗心,是在没有明确规则的情况下,每次录入都是一次独立决策,独立决策天然产生不一致。

典型问题 实际表现 发现时机
字段名不统一 Hb / 血红蛋白 / HGB 混用在同一列 统计前清洗数据时
单位不一致 μmol/L 和 mg/dL 混在肌酐列里 描述性统计时发现离群值
相邻指标混淆 NEUT# 和 NEUT% 串列 可能分析完才发现,也可能不会发现
多人录入标准不同 合并表格后列名对不上 数据合并时

最麻烦的是第三行:NEUT# 和 NEUT% 的值差一个数量级,数据范围都在合理区间内,描述性统计不会触发警告。这类错误最难被发现。

解决方法:在开始收集之前,先定义好每个字段

这个道理在问卷研究里是常识——设计问卷时会确定每道题问什么、选项怎么编码,不会先收集再决定。但在 HIS 截图录入里,这个步骤通常被跳过,因为大家默认"拍了照就知道要什么"。

把字段定义前移,效果是让整个课题的所有截图都按同一套规则处理:

  • 血红蛋白 → 列名固定为"血红蛋白(g/L)",每张截图都取这个单位下的值
  • 中性粒细胞 → 列名写"中性粒细胞绝对值(×10⁹/L)",语义上就排除了旁边的百分比
  • 血肌酐 → 列名写"血肌酐(μmol/L)",如果某张截图显示的是 mg/dL,在规则里就已经约定了需要换算

这份定义在第一次设置时花 10 分钟,往后整个课题期间不再修改。不同时间、不同研究生用同一套列名收集的数据可以直接合并,不需要事后清洗。

简录AI 里的列名定义怎么用

用简录AI 处理 HIS 截图时,核心操作就是定义你要的列名。工具按这套定义从每张截图里提取对应的值,输出成结构化表格,每张截图一行。

工具做语义匹配,不是位置匹配:你写"肌酐",它能识别截图里的"血清肌酐(Cr)"、"SCr"、"CREA";你写"中性粒细胞绝对值",它会找 NEUT# 那行的数值而不是旁边的 NEUT%。列名里带上单位是好习惯,既是给工具的指令,也是给将来读数据的人的说明。

这套列名可以保存为模板,整个课题复用——随访第 3 次的截图和基线截图用同一套列名,导出结果的列结构完全一致,直接导入 SPSS 或 R 就能用,不需要再整理列名。

如果同一个课题涉及多种 HIS 报告类型(比如血常规 + 生化全套),可以分别定义两套列名模板,分别处理,最后在 Excel 里按患者 ID 合并。

几个让这个流程更可靠的习惯

在课题设计阶段就确定列名,不是在收集阶段

确定研究变量的时候同时确定列名和单位。这和写数据采集方案是同一件事,只是更具体——不只是说"收集血常规指标",而是列出"血红蛋白(g/L)、白细胞(×10⁹/L)、血小板(×10⁹/L)"这样的完整定义。

先用 5 张截图验证,再批量处理

用 5 张有代表性的截图(包括不同时间、不同 HIS 版本)测试列名配置,逐条对照原图确认提取结果正确。发现问题调整列名,而不是等批量处理完再来核对几百张。

多人协作时共享同一套列名配置

把列名配置发给一起收集数据的同学,每个人提交截图时用同一套定义。合并结果时不需要对齐列名,因为本来就是一致的。

缺失值保持空白,不要填默认值

如果某次随访某个检验项目没查,工具对应列会输出空值。保持空白,不要用 0 或其他数字填充。缺失值的处理规则在统计分析时再决定,不要在录入阶段就混入伪数据。

常见问题

论文方法部分怎么描述这个采集过程?

可以写:"检验数据通过 AI 辅助工具按预定义字段规范从 HIS 截图中提取,预先定义了 X 个提取字段(附列名清单),并通过随机抽查 N 条原始截图对提取结果进行准确率验证。"这比"数据由研究者手动录入"更具体,也说明了你有质控步骤,对方法学审查更友好。

不同医院、不同 HIS 版本的截图,同一套列名能用吗?

大多数情况下可以。工具做语义匹配,不依赖固定布局。同一医院不同时期的 HIS 界面通常只是细节差异,字段名基本一致。如果你的课题涉及多个医院的截图,建议在每个医院各取几张先测试,确认匹配正确再批量处理。

提取结果还需要人工核查吗?

需要,但不需要逐张核查。建议每批导出后随机抽 5% 左右对照原图核对。一旦确认在某种 HIS 格式下准确率稳定,后续同类截图只需要抽检少量样本。AI 提取不是 100% 准确,科研数据采集场景需要建立核查机制,这和手工录入同样需要核查是一样的道理。

截图里有患者姓名和住院号,上传安全吗?

简录AI 的处理不用于模型训练,处理后不长期存储原始图片。即便如此,如果截图包含患者直接标识信息,建议在上传前遮盖患者姓名和住院号,只保留检验值区域。数据去标识化本身也是科研伦理的基本要求,和使用哪个工具无关。

提前 10 分钟定义好提取字段,可以在统计前省去几小时数据清洗,也可以避免某些问题在发表后才被发现。这是临床科研里收益最不对等的一个习惯调整。

试试定义你的提取字段

上传一张 HIS 截图,用你课题里实际需要的字段名和单位定义列名,看看导出结果是否符合预期。

开始免费使用