临床科研数据怎么收集：从变量定义到Excel建表

临床科研数据怎么收集：
从变量定义到Excel建表

临床科研数据收集里最常见的返工，根源几乎不在执行阶段——而在开始之前没有定义清楚变量。字段名不统一、单位没写、分类变量用了文字录入、缺失值填了0，这些问题事后都难以完整补救，却都可以在第一张病历打开之前就避免。

第一步：把每个变量定义精确到别人也能执行

变量定义的目标不是"我自己知道要什么"，而是"任何人拿着这份定义去看病历，都能找到同一个值"。达不到这个标准的定义，就是还不够具体。

一个合格的变量定义包含四项：名称、单位、取值规则、编码方式（如果是分类变量）。以常见的检验指标为例：

实用的检验方法：把这份定义发给要一起收集数据的同学，他们拿着它去看一份病历，如果还需要来问你，说明定义还不够具体。

行列结构。每行一例患者（如果有随访，宽格式下仍是每行一例），每列一个变量。不要用合并单元格，不要在表头下加说明行——这类格式在统计软件里会报错或被错误读取。

第一列是患者唯一标识符。住院号或研究编号，整个课题期间不变。后期合并不同来源的数据、核查原始截图，都要靠这一列。

分类变量用数字编码。性别不要写"男"/"女"，写1/0。分组不要写"治疗组"/"对照组"，写1/0。文字值导入SPSS或R会被识别为字符串，很多分析步骤需要额外转换。编码规则单独保存一份对照表，不要只存在记忆里。

缺失值保持空白。某次随访没查某个项目，对应单元格留空，不要填0，不要填"无"。0在统计软件里是数值，会参与均值和方差计算，和"这个值不存在"是完全不同的含义。

临床研究数据主要来自两类来源，处理方式差异很大：

检验报告（血常规、生化、凝血等）格式规整，每个指标是一个明确的数字，适合批量处理。从HIS截图里提取这类数据，用简录AI定义列名后批量上传截图，直接输出结构化表格，比手工逐张录入快得多，也避免了字段混淆的问题。

病历文书（病程记录、出院小结、影像报告）是叙述性文字，结构差异大，目前大多数情况仍需要人工阅读摘录。如果你的核心变量主要来自这类来源，在研究设计阶段就要把这部分工作量估算进去。

1. 整理病例列表，建好空表。确认纳入患者的住院号，在Excel里建好行，第一列填住院号，其他列按变量定义填好列名。先建结构，再填数据。

2. 按来源分批收集。检验报告和病历文书分开处理——检验报告截图后批量提取，病历文书手工摘录。两部分完成后按患者ID合并，用VLOOKUP而不是手动粘贴，行顺序可能不一致。

3. 每批完成后立即抽查。每处理10-20例，随机抽几例对照原始记录核对。发现问题越早，纠正成本越低。不要等全部100例录完再回头核查。

4. 用5例测试你的定义。正式开始大批量收集之前，用5份有代表性的病历测试字段定义——确认每个变量都能在病历里找到，没有歧义，没有漏掉的情况。发现问题早改，晚改代价大。

按变量定义输入列名，上传HIS截图，直接导出可用于SPSS的Excel表格。