CT/MRI/超声报告数据怎么录入 Excel: 影像数据提取的几个关键点

你打开第一份 CT 报告:「肝右叶见一类圆形低密度影,大小约 4.3×3.8×3.5cm,边界欠清,增强扫描动脉期明显强化,门静脉期廓清,考虑原发性肝癌可能性大。肝内另见数个小囊肿,较大者约 0.8cm。」

你要录入的字段是"肿瘤最大径"。这份报告里是 4.3cm,但你翻到第三份报告,同一字段写的是「病灶约 43×38mm」——毫米,三维都有,最大径要自己推算。第十二份报告直接写「肿块大小 4cm 左右」——没有精确值。80 份报告,每份的写法都不太一样。

CT MRI超声影像报告数据提取录入Excel

影像报告和检验报告,录入时的本质差异

检验报告是结构化的:每个指标一行,值和单位都已经固定好。你要提取的东西本身就是一个清晰的数字。

影像报告是叙述性的:由放射科医生手写(或语音转文字),描述他们看到的东西。同一个医院,不同的放射科医生写法不同;同一个医生,五年前和现在写的格式可能也不一样。你要从一段自然语言文本里,找到你需要的数字或判断。

这不是说影像报告的数据质量差——放射科医生写的是完整的临床描述,对诊断来说完全够用。但对研究者来说,从这种格式里批量提取特定字段,比从检验报告截图里提取难度要高。

研究中常见的影像提取字段

不同研究需要不同内容,但大体上影像报告里你可能需要的字段分三类:

字段类型 示例 录入难点
测量值 肿瘤最大径、淋巴结短径、胸腔积液深度 单位不统一(cm/mm),表达方式多样(单径/三径/约值)
描述性判断 强化方式、边界是否清晰、是否侵犯周围结构 文字描述,需要转化为分类变量(有/无、阳性/阴性)
诊断结论 影像分期、考虑诊断、BIRADS/LI-RADS 分类 报告结尾的"印象"部分,措辞因人而异

测量值和诊断结论可以直接录入数据表;描述性判断通常需要你在字段设计阶段就决定好转化规则,比如「边界是否清晰:1=清晰,0=欠清/不清」。

单位和测量方式不统一:怎么处理

测量值的不一致主要有三种形式:

单位:cm 还是 mm。同一个医院的报告里两种都有,跨年份的报告更容易不统一。处理方式是在字段定义时指定单位,并在录入后统一换算。不要靠记忆判断每行用的是哪个单位——在数据表里加一列「原始记录」存放报告原文的描述,换算列里写公式。

三径还是最大径。很多报告给出三个方向的尺寸(如 4.3×3.8×3.5cm),你的研究需要的是最大径(取三者最大值,即 4.3cm)还是体积估算(4/3π×abc,椭球体积公式)?在研究方法里先定下来,提取时严格按规则执行。

精确值还是约值。「约 4cm」和「4.3cm」的处理方式要在字段说明里明确——如实录入原始报告里的数字(4 或 4.3),并在 Excel 里标注是否为约值。不要自行把「约 4cm」转成「4.0cm」,这引入了精度假象。

多处病灶:录哪个

「肝内多发病灶,较大者位于右后叶,大小约 4.3×3.8cm;右前叶另见一病灶,大小约 1.2×0.9cm。」

你的数据表只有一列「肝脏病灶最大径」。这两个病灶,录哪个?

答案在研究设计阶段就要确定,不是在录入时临时决定。常见规则:

  • 取最大病灶(主病灶,target lesion):适用于评估疾病负荷、治疗反应的研究
  • 取目标部位的病灶:如果你研究的是"右肝前叶病灶",只取那个位置的值
  • 分别录入,每个病灶一行:适合以病灶为观察单位的研究,数据表结构需要相应调整

把这条规则写进字段说明里:「肝脏病灶最大径(cm) = 影像报告中记录的最大病灶的最大径」。这样多人参与录入时大家执行同一套标准。

录入规则不在录入阶段制定,在研究设计阶段制定。拿到数据开始录之前,先把每个字段的提取规则写成一句话,歧义就消失了。

描述性结论怎么录:文字转分类变量

报告描述「边界欠清」「边缘不规则」「周围见模糊渗出」——这些是文字,你的数据表需要的是可以分析的数字或分类。

处理方法:在字段设计时就把文字转化规则固定下来。例如:

  • 肿瘤边界:1=清晰,0=欠清/不清/不规则(报告中"边界清晰"对应1,其他描述一律对应0)
  • 是否侵犯血管:1=报告明确提示血管侵犯或包绕,0=未提示
  • 增强模式:1=动脉期强化门脉期廓清("快进快出"),0=其他或未描述

规则一旦定好,录入时按规则执行,不需要对每份报告独立判断。如果遇到描述模糊、无法归类的情况,单独标注为「不确定」,后续决定如何处理,不要强行填 0 或 1。

操作流程:从报告截图到结构化表格

影像报告在 HIS 里通常以 PDF 或文本形式存在,也可以直接截图。工作流和检验报告类似,但字段定义要更细:

第一步:写清字段提取规则,不只是字段名

检验报告字段只需要名称和单位就够用。影像报告字段还需要写明:取哪个病灶(最大/目标部位)、用什么单位、三径还是最大径、描述性字段的转化规则。这一步多花 20 分钟,录入阶段省几小时。

第二步:先测试,用 3–5 份代表性报告

选不同年份、不同放射科医生的报告各一两份,测试提取结果。重点检查:测量值单位是否被正确识别、多病灶情况下提取的是哪个值、描述性字段的转化是否符合你的规则。发现问题比批量处理完了再返工省事。

第三步:上传报告截图或文本,批量提取

用简录AI上传影像报告截图,按字段列表提取。对于测量值,工具做语义匹配,能识别「最大径」「最长径」「长轴」「大小约 X×Y×Z」等不同表述对应同一个变量。提取结果直接输出为 Excel,每份报告一行。

第四步:抽样核查,重点查边界案例

随机抽 5–10% 核查,优先检查多病灶报告和描述模糊的报告。影像报告比检验报告变化更多,核查不能省。

几种常见的特殊情况

超声报告和 CT/MRI 的差异。超声报告通常更简短,但同样有测量值不一致的问题。另外超声有多切面测量,报告可能只记录其中一个切面的数值,或者只记录结论(「胆囊壁增厚」)而不给具体测量值。遇到这种情况,如实记录能找到的值,没有精确值就留空,不要用正常参考值代替。

随访报告和基线报告。做纵向研究需要基线和随访两个时间点的影像数据。确认每份报告对应的是哪次检查(报告日期是关键),不要靠报告里的「较前次」「与前片比较」这类描述来推断基线值——那是对比描述,不是绝对值。

报告里没有你要的字段。比如你要「淋巴结短径」,但某份报告只写了「纵隔未见明显肿大淋巴结」,没有给具体数值。这种情况留空,不要填 0(0 意味着淋巴结短径是 0mm,和"未描述"是不同的信息)。

影像报告录入的核心难题不是识别,是规则:在开始录之前把每个字段的提取规则写清楚,后续无论是手录还是用工具批量处理,执行都会顺得多。

影像报告截图批量提取数据

上传 CT/MRI/超声报告截图,按字段提取测量值和诊断结论,导出结构化 Excel。

开始免费使用