病理报告数据怎么录入 Excel: 临床科研病理参数提取指南

肿瘤外科或肿瘤内科的临床研究,病理报告是绕不开的数据来源。切缘状态是 R0 还是 R1,淋巴结转移几个里有几个阳性,Ki-67 指数是多少,分化程度怎么分级——这些数据都在病理报告里,但病理报告不是表格,是一段有格式的文本,里面的信息密度很高,不同病理科医生的写法也不完全一样。

病理报告数据录入临床科研

病理报告的结构:什么在哪里

手术切除标本的病理报告通常分几个部分,研究者关注的字段分布在不同位置:

报告部分 常见内容 研究中常提取的字段
大体描述 标本类型、肿瘤大小(三径)、距切缘距离、肉眼所见 肿瘤大小、切缘距离
镜下描述 组织学类型、分化程度、浸润深度、脉管/神经侵犯 分化程度、浸润程度、脉管癌栓、神经侵犯
淋巴结情况 各组淋巴结检出数、阳性数 淋巴结总数、阳性淋巴结数
免疫组化 ER、PR、HER2、Ki-67 等标记物结果 Ki-67 指数、HER2 分级、激素受体状态
病理诊断(结论) 综合诊断、TNM 分期(部分报告含) 组织学诊断、pT/pN 分期

病理报告的格式比影像报告更规范,但密度更高——一份报告可能包含十几到二十几个信息点,而你的研究可能只需要其中 5–8 个。批量处理的价值在这里体现:按你定义的字段精确提取,不需要每次都读完整份报告。

文字转变量:病理数据的编码规则

病理报告里大量信息是描述性文字,需要在设计数据表时就定好编码方案。以下是几个最常见的需要转化的字段:

分化程度。报告里可能写「高分化腺癌」「中分化」「低分化/未分化」,对应编码:

  • 1 = 高分化(well differentiated, G1)
  • 2 = 中分化(moderately differentiated, G2)
  • 3 = 低分化(poorly differentiated, G3)
  • 4 = 未分化(undifferentiated, G4)

切缘状态。常见写法:「切缘未见癌」「各切缘净」「切缘阴性」「切缘距肿瘤 1.5cm」——这些都对应 R0;「切缘见癌组织」「切缘阳性」对应 R1。编码 0=R0,1=R1/R2,并保留原始切缘距离数值(如有)。

脉管侵犯和神经侵犯。通常是有/无:「未见脉管癌栓」对应 0,「可见脉管癌栓」对应 1。注意报告有时只写「淋巴管侵犯」,有时写「脉管侵犯(含血管和淋巴管)」——如果你的研究区分这两种,字段定义里要明确分开。

Ki-67。报告里通常直接给百分比,比如「Ki-67 约 30%+」或「Ki-67(+,20%)」。提取数值部分,单位是 %,不需要转化。注意有些报告用「+」「++」「+++」定性描述而不给数值,这种情况记录为定性值,后续处理时单独标注。

淋巴结数据:多组怎么合并

淋巴结数据是病理报告里结构最复杂的部分。一份胃癌根治术的病理报告里,淋巴结可能按组别列出:

「第 1 组:3/5,第 3 组:0/4,第 7 组:1/3,第 12 组:0/2,另送:0/2……总计淋巴结 16 枚,其中 4 枚见转移癌。」

你的数据表需要的字段通常是:

  • 淋巴结检出总数(本例:16)
  • 阳性淋巴结总数(本例:4)
  • 是否有淋巴结转移(1=是,0=否)

如果你的研究需要按组别分析淋巴结,那每一组都是一个单独字段;如果只需要总数,就直接提取报告最后的汇总行,不需要把各组数字手动相加。

一个容易出错的地方:有些报告「总计」行在报告最后,有些在各组列表之后紧接着给出,位置不一致。截图时确保汇总行包含在截图范围内。

HER2 分级和分期:特殊编码说明

HER2 分级。免疫组化结果通常是 0、1+、2+、3+,其中 2+ 需要进一步做 FISH 检测才能判断是否扩增。录入时:

  • IHC 结果:0、1、2、3(去掉+号,录入数字)
  • 如果有 FISH 结果:单独一列,1=扩增,0=无扩增
  • HER2 最终状态(用于分组的那列):阳性=IHC 3+ 或 IHC 2+/FISH 扩增,阴性=其他

TNM 分期。部分病理报告会在结论里给出 pTNM 分期,部分报告只给出 T 和 N 的描述,整体分期由临床医生综合判断。如果报告里有,直接提取;如果没有,根据你记录的 pT 和 pN 按该肿瘤的分期标准(需要指定年份版本,比如 AJCC 第 8 版)在 Excel 里用公式推算,而不是回去翻病历。

批量提取病理报告的操作流程

先建编码表,再开始截图

把每个需要转化为分类变量的字段的编码规则写成一张表,包括:报告里可能出现的所有表述方式 → 对应的编码值。比如切缘字段:「切缘净/切缘阴性/未见肿瘤/距切缘 Xcm」→ 0,「切缘见癌/切缘阳性」→ 1。这张表在整个课题周期里都是录入的参考标准。

定义字段时区分"原始值"和"编码值"

对于分化程度、切缘状态等文字字段,在 Excel 里保留两列:一列录原始描述(「中分化」),一列录编码值(2)。如果后来发现编码规则有问题,可以从原始描述重新编码,不需要回去翻报告。

截图覆盖报告全页,不要只截结论

病理报告的关键数据分散在各部分,只截结论会漏掉镜下描述里的脉管侵犯、切缘距离、免疫组化结果等细节。建议整份报告完整截图(通常 1–2 页),批量上传时一次性提取所有需要的字段。

核查时专注高风险字段

淋巴结总数/阳性数(格式最复杂)、HER2 分级(符号转数字容易出错)、肿瘤大小(有时分散在大体和镜下两处)。这三类字段的抽检优先级最高。

穿刺活检报告 vs 手术切除报告

穿刺活检(biopsy)报告和手术切除标本的病理报告信息量差别很大。活检报告通常只有组织学类型、分化程度、免疫组化,没有切缘、淋巴结、完整的 pTNM 信息——这些只有手术切除标本才有。

如果你的研究需要完整的病理分期,数据来源必须是手术切除标本的病理报告,不能用活检报告代替。如果两种报告都有,在数据表里用一列标注报告类型(1=手术切除,2=活检),避免混淆。

病理报告的信息密度高,但格式比普通影像报告更规范。难点在于文字结论的编码规则——在开始录入之前定好,批量处理之后只需要核查编码是否执行一致,而不是重新判断每份报告。

批量提取病理报告关键字段

上传病理报告截图,定义分化程度、淋巴结转移、Ki-67 等字段,直接导出可分析的 Excel 表格。

开始免费使用