病理报告数据怎么录入 Excel:
临床科研病理参数提取指南
肿瘤外科或肿瘤内科的临床研究,病理报告是绕不开的数据来源。切缘状态是 R0 还是 R1,淋巴结转移几个里有几个阳性,Ki-67 指数是多少,分化程度怎么分级——这些数据都在病理报告里,但病理报告不是表格,是一段有格式的文本,里面的信息密度很高,不同病理科医生的写法也不完全一样。
病理报告的结构:什么在哪里
手术切除标本的病理报告通常分几个部分,研究者关注的字段分布在不同位置:
| 报告部分 | 常见内容 | 研究中常提取的字段 |
|---|---|---|
| 大体描述 | 标本类型、肿瘤大小(三径)、距切缘距离、肉眼所见 | 肿瘤大小、切缘距离 |
| 镜下描述 | 组织学类型、分化程度、浸润深度、脉管/神经侵犯 | 分化程度、浸润程度、脉管癌栓、神经侵犯 |
| 淋巴结情况 | 各组淋巴结检出数、阳性数 | 淋巴结总数、阳性淋巴结数 |
| 免疫组化 | ER、PR、HER2、Ki-67 等标记物结果 | Ki-67 指数、HER2 分级、激素受体状态 |
| 病理诊断(结论) | 综合诊断、TNM 分期(部分报告含) | 组织学诊断、pT/pN 分期 |
病理报告的格式比影像报告更规范,但密度更高——一份报告可能包含十几到二十几个信息点,而你的研究可能只需要其中 5–8 个。批量处理的价值在这里体现:按你定义的字段精确提取,不需要每次都读完整份报告。
文字转变量:病理数据的编码规则
病理报告里大量信息是描述性文字,需要在设计数据表时就定好编码方案。以下是几个最常见的需要转化的字段:
分化程度。报告里可能写「高分化腺癌」「中分化」「低分化/未分化」,对应编码:
- 1 = 高分化(well differentiated, G1)
- 2 = 中分化(moderately differentiated, G2)
- 3 = 低分化(poorly differentiated, G3)
- 4 = 未分化(undifferentiated, G4)
切缘状态。常见写法:「切缘未见癌」「各切缘净」「切缘阴性」「切缘距肿瘤 1.5cm」——这些都对应 R0;「切缘见癌组织」「切缘阳性」对应 R1。编码 0=R0,1=R1/R2,并保留原始切缘距离数值(如有)。
脉管侵犯和神经侵犯。通常是有/无:「未见脉管癌栓」对应 0,「可见脉管癌栓」对应 1。注意报告有时只写「淋巴管侵犯」,有时写「脉管侵犯(含血管和淋巴管)」——如果你的研究区分这两种,字段定义里要明确分开。
Ki-67。报告里通常直接给百分比,比如「Ki-67 约 30%+」或「Ki-67(+,20%)」。提取数值部分,单位是 %,不需要转化。注意有些报告用「+」「++」「+++」定性描述而不给数值,这种情况记录为定性值,后续处理时单独标注。
淋巴结数据:多组怎么合并
淋巴结数据是病理报告里结构最复杂的部分。一份胃癌根治术的病理报告里,淋巴结可能按组别列出:
「第 1 组:3/5,第 3 组:0/4,第 7 组:1/3,第 12 组:0/2,另送:0/2……总计淋巴结 16 枚,其中 4 枚见转移癌。」
你的数据表需要的字段通常是:
- 淋巴结检出总数(本例:16)
- 阳性淋巴结总数(本例:4)
- 是否有淋巴结转移(1=是,0=否)
如果你的研究需要按组别分析淋巴结,那每一组都是一个单独字段;如果只需要总数,就直接提取报告最后的汇总行,不需要把各组数字手动相加。
一个容易出错的地方:有些报告「总计」行在报告最后,有些在各组列表之后紧接着给出,位置不一致。截图时确保汇总行包含在截图范围内。
HER2 分级和分期:特殊编码说明
HER2 分级。免疫组化结果通常是 0、1+、2+、3+,其中 2+ 需要进一步做 FISH 检测才能判断是否扩增。录入时:
- IHC 结果:0、1、2、3(去掉+号,录入数字)
- 如果有 FISH 结果:单独一列,1=扩增,0=无扩增
- HER2 最终状态(用于分组的那列):阳性=IHC 3+ 或 IHC 2+/FISH 扩增,阴性=其他
TNM 分期。部分病理报告会在结论里给出 pTNM 分期,部分报告只给出 T 和 N 的描述,整体分期由临床医生综合判断。如果报告里有,直接提取;如果没有,根据你记录的 pT 和 pN 按该肿瘤的分期标准(需要指定年份版本,比如 AJCC 第 8 版)在 Excel 里用公式推算,而不是回去翻病历。
批量提取病理报告的操作流程
先建编码表,再开始截图
把每个需要转化为分类变量的字段的编码规则写成一张表,包括:报告里可能出现的所有表述方式 → 对应的编码值。比如切缘字段:「切缘净/切缘阴性/未见肿瘤/距切缘 Xcm」→ 0,「切缘见癌/切缘阳性」→ 1。这张表在整个课题周期里都是录入的参考标准。
定义字段时区分"原始值"和"编码值"
对于分化程度、切缘状态等文字字段,在 Excel 里保留两列:一列录原始描述(「中分化」),一列录编码值(2)。如果后来发现编码规则有问题,可以从原始描述重新编码,不需要回去翻报告。
截图覆盖报告全页,不要只截结论
病理报告的关键数据分散在各部分,只截结论会漏掉镜下描述里的脉管侵犯、切缘距离、免疫组化结果等细节。建议整份报告完整截图(通常 1–2 页),批量上传时一次性提取所有需要的字段。
核查时专注高风险字段
淋巴结总数/阳性数(格式最复杂)、HER2 分级(符号转数字容易出错)、肿瘤大小(有时分散在大体和镜下两处)。这三类字段的抽检优先级最高。
穿刺活检报告 vs 手术切除报告
穿刺活检(biopsy)报告和手术切除标本的病理报告信息量差别很大。活检报告通常只有组织学类型、分化程度、免疫组化,没有切缘、淋巴结、完整的 pTNM 信息——这些只有手术切除标本才有。
如果你的研究需要完整的病理分期,数据来源必须是手术切除标本的病理报告,不能用活检报告代替。如果两种报告都有,在数据表里用一列标注报告类型(1=手术切除,2=活检),避免混淆。