临床科研数据怎么收集:
从变量定义到Excel建表
临床科研数据收集里最常见的返工,根源几乎不在执行阶段——而在开始之前没有定义清楚变量。字段名不统一、单位没写、分类变量用了文字录入、缺失值填了0,这些问题事后都难以完整补救,却都可以在第一张病历打开之前就避免。
第一步:把每个变量定义精确到别人也能执行
变量定义的目标不是"我自己知道要什么",而是"任何人拿着这份定义去看病历,都能找到同一个值"。达不到这个标准的定义,就是还不够具体。
一个合格的变量定义包含四项:名称、单位、取值规则、编码方式(如果是分类变量)。以常见的检验指标为例:
| 变量名 | 取值规则 | 编码 |
|---|---|---|
| 基线血红蛋白(g/L) | 入院48小时内第一次血常规的Hb值;无记录者留空 | 连续值,原始数值 |
| 性别 | 住院记录中记载的性别 | 1=男,0=女 |
| 是否合并高血压 | 入院诊断或既往史中明确记载"高血压" | 1=是,0=否 |
实用的检验方法:把这份定义发给要一起收集数据的同学,他们拿着它去看一份病历,如果还需要来问你,说明定义还不够具体。
建数据表:四件事做对
行列结构。每行一例患者(如果有随访,宽格式下仍是每行一例),每列一个变量。不要用合并单元格,不要在表头下加说明行——这类格式在统计软件里会报错或被错误读取。
第一列是患者唯一标识符。住院号或研究编号,整个课题期间不变。后期合并不同来源的数据、核查原始截图,都要靠这一列。
分类变量用数字编码。性别不要写"男"/"女",写1/0。分组不要写"治疗组"/"对照组",写1/0。文字值导入SPSS或R会被识别为字符串,很多分析步骤需要额外转换。编码规则单独保存一份对照表,不要只存在记忆里。
缺失值保持空白。某次随访没查某个项目,对应单元格留空,不要填0,不要填"无"。0在统计软件里是数值,会参与均值和方差计算,和"这个值不存在"是完全不同的含义。
数据来源:检验报告和病历文书处理方式不同
临床研究数据主要来自两类来源,处理方式差异很大:
检验报告(血常规、生化、凝血等)格式规整,每个指标是一个明确的数字,适合批量处理。从HIS截图里提取这类数据,用简录AI定义列名后批量上传截图,直接输出结构化表格,比手工逐张录入快得多,也避免了字段混淆的问题。
病历文书(病程记录、出院小结、影像报告)是叙述性文字,结构差异大,目前大多数情况仍需要人工阅读摘录。如果你的核心变量主要来自这类来源,在研究设计阶段就要把这部分工作量估算进去。
实际工作流程
1. 整理病例列表,建好空表。确认纳入患者的住院号,在Excel里建好行,第一列填住院号,其他列按变量定义填好列名。先建结构,再填数据。
2. 按来源分批收集。检验报告和病历文书分开处理——检验报告截图后批量提取,病历文书手工摘录。两部分完成后按患者ID合并,用VLOOKUP而不是手动粘贴,行顺序可能不一致。
3. 每批完成后立即抽查。每处理10-20例,随机抽几例对照原始记录核对。发现问题越早,纠正成本越低。不要等全部100例录完再回头核查。
4. 用5例测试你的定义。正式开始大批量收集之前,用5份有代表性的病历测试字段定义——确认每个变量都能在病历里找到,没有歧义,没有漏掉的情况。发现问题早改,晚改代价大。