体检报告数据怎么录入 Excel: 健康体检数据提取整理指南

队列研究里,基线数据常常来自研究对象入组时的健康体检报告。一批研究对象,每人一份体检报告,你需要从里面提取血压、BMI、空腹血糖、血脂四项、尿酸等作为基线变量。体检报告包含的项目多,格式因体检机构不同而差异明显,手工逐份录入容易在繁杂的项目列表里拿错字段或漏掉单位。

体检报告数据录入Excel整理

体检报告和医院检验报告,录入时有什么不同

表面上看,体检报告和医院检验报告格式很像——都是指标名称加数值加参考范围。但录入时有几个区别值得注意:

项目更多,但你只需要其中一部分。一份标准健康体检报告可能包含 50–80 个检验项目,加上体格测量、超声、心电图等,整份报告 5–10 页。你的研究可能只需要 8–10 个字段。项目太多反而容易在找目标字段时疲劳,批量提取时按字段精确指定很重要。

体检机构不同,字段名和排版差异更大。医院 HIS 系统在一家医院内格式相对统一;体检机构(爱康、美年、瑞慈,或单位自建体检中心)的报告格式各有不同,同一个指标的列名可能是「总胆固醇」「TC」「胆固醇」,单位可能是 mmol/L 或 mg/dL。

可能有总结性结论,但不是你要的具体数值。体检报告通常有「综合评估」或「健康建议」页,写「血脂偏高,建议复查」。这是诊断结论,不是数值,不要把它录入数值列。

常见体检基线字段和注意事项

字段 可能的列名 单位 录入注意点
血压 血压、SBP/DBP、收缩压/舒张压 mmHg 分两列录:收缩压和舒张压,不要录"120/80"这种格式
BMI BMI、体质指数,或只有身高+体重 kg/m² 部分报告不直接给 BMI,需要从身高体重用公式算;建议同时录身高和体重
空腹血糖 空腹血糖、FBG、FPG、GLU mmol/L 注意是否标注"空腹",餐后血糖不能替代空腹血糖
总胆固醇 TC、总胆固醇、CHOL mmol/L 或 mg/dL 注意单位,不同机构可能不同;1 mmol/L = 38.67 mg/dL
甘油三酯 TG、甘油三酯、TRIG mmol/L 或 mg/dL 同上,注意单位
尿酸 UA、尿酸、SUA μmol/L 或 mg/dL 1 mg/dL = 59.48 μmol/L,国内报告多用 μmol/L

血压单独说一下:体检报告里血压有时写「120/80 mmHg」,这是一个字符串,不是两个数字。录入时拆分成两列——收缩压(mmHg) 和舒张压(mmHg)——方便后续统计分析时直接用。

多年体检数据:哪份报告作为基线

队列研究里,研究对象可能有 3–5 年的连续体检记录。如果你的研究需要「入组时基线」,要在研究方案里写清楚:

  • 以入组时间(知情同意日期)最近的一次体检为基线,还是
  • 以特定年份的体检为基线(比如研究覆盖 2018–2022 年,以 2018 年体检为基线),还是
  • 以研究随访开始前 6 个月以内的体检为基线

规则定好后,每位研究对象截图对应年份的报告。不要把多年体检报告全部上传、事后再选——这样处理容易出现每个人用的不是同一年的报告而导致"基线"在时间上不统一。

如果你做的是随访研究,需要基线 + 随访两个时间点的体检数据,那是两套完全独立的字段列。在数据表里用「时间点」列区分(0=基线,1=随访1年,2=随访2年),而不是在列名里加后缀(「血糖_基线」「血糖_随访」这种方式在数据宽格式下是合理的,但提取时每个时间点需要单独处理)。

单位混用:最容易忽视的数据质量问题

如果你的研究对象来自不同机构(比如多中心研究,或者研究对象来自不同单位的体检),不同机构的体检报告里同一指标可能用不同单位。

最常见的情况是血脂:国内大多数机构用 mmol/L,部分老牌外资体检机构用 mg/dL。如果你把两种单位的数值混在同一列,描述性统计会显示异常——总胆固醇 "5.2" 和 "200" 混在一列,均值、标准差完全失真,而且肉眼很难发现。

处理方式:在 Excel 里加一列「单位」,录入时记录每行数值的原始单位;在另一列用 IF 公式统一换算到目标单位。不要在录入列直接写换算后的值,保留原始记录方便核查。

体检报告批量提取的操作流程

字段定义里列出所有可能的列名变体

不同机构的体检报告对同一指标的命名可能不同。字段定义时把常见变体列出来,例如「空腹血糖(mmol/L):可能标注为 FBG、FPG、GLU、空腹葡萄糖」。这样批量处理跨机构的报告时,工具能识别不同写法对应同一变量。

按机构分批,不同机构的报告分开处理

如果报告来自多个体检机构,先按机构分组,每组先测试几份确认字段映射正确,再批量处理。同一机构的报告格式通常一致,测试通过后这一组的准确率会很稳定。

截图时包含报告日期和机构名称

体检报告的日期和机构信息通常在报告首页或页眉。截图时确保这两项包含在截图里,方便后期核查时确认是否是正确的时间点,以及核对单位是否需要换算。

导出后优先检查血压列和血脂单位列

血压是最容易录成"120/80"字符串而不是两个独立数值的字段;血脂是最容易出现单位混用的字段。导出后先检查这两类,再做其他核查。

体检报告的项目多、跨机构格式差异大,但如果研究对象来自同一机构,格式通常相当统一。提前列出字段变体和单位换算规则,批量处理会省下大量反复确认的时间。

批量提取体检报告指标数据

上传健康体检报告截图,按血压、血糖、血脂等字段提取,直接导出结构化 Excel 用于队列分析。

开始免费使用