医疗数据脱敏处理:临床科研中的数据合规方案

临床科研需要大量病历数据做支撑——这一点没人质疑。但原始病历里的姓名、身份证号、住院号、家庭住址是敏感个人信息,受到法律严格保护。把病历内容录入研究数据库时,合规要求和数据可用性之间有一个具体的张力:研究需要数据,但数据不能带着身份一起流转。这个问题的解法,不是"先转录再脱敏"——在回顾性研究的现实约束下,这条路走不通。

医疗数据脱敏与临床科研合规

Key Takeaways

  1. 200份病历、每份30个字段、走两遍完整处理——第一遍录入第二遍脱敏——任何在课题组待过的人都知道这套流程在设计上就无法完成,需要改进的不是合规意识,是让脱敏动作嵌入转录动作的工作方式。
  2. PIPL第四条给所有临床研究者开了一条被严重低估的合规出路——匿名化处理后的信息不再属于个人信息,不需要单独同意——回顾性研究的实际可行目标不是法律级的完全匿名化,是在录入的同时完成去标识化,让研究数据库从进入那一刻就不含可直接识别患者的字段。
  3. 把脱敏规则直接写进简录AI的列名里——"住院号(仅保留后4位)""地址(仅保留到市级)""入院日期(仅保留年月)"——AI提取完成时脱敏已同步完成,导出Excel的那一刻数据就没含过完整标识信息,不存在"先存着完整病历等以后再脱敏"的危险中间态。

脱敏与转录必须同步——做两次,没人能完整执行

一个典型的回顾性研究场景:2019到2023年的住院病历,200例,每例要提取约30个变量。病历是纸质的或者HIS截图,没有任何结构化数据可以直接导入——你需要把每一条指标从病历里"读出来、敲进去"。

如果脱敏和转录分开做,意味着:先完整录一遍(含姓名、住院号),然后在另一个环节逐行处理敏感字段。这需要两遍完整的"过病历"——每遍都是200份 × 30字段的工作量。实际操作中,绝大多数课题组会在录入结束后放弃第二次脱敏:研究本身的紧迫性、论文截稿日期、人手有限——所有这些现实压力都指向同一个结果。

这不是合规意识问题,是执行可行性的问题。要求一个课题组对同一批病历做两遍完整处理,这个流程本身就不可持续。唯一的解法是:脱敏动作嵌入转录动作——录入的同时现场完成脱敏,不增加第二道工序。

临床研究者不需要背诵整部《个人信息保护法》。但以下几条直接决定了你的数据收集工作应该怎么做:

《个人信息保护法》第二十八条:医疗健康信息属于敏感个人信息。处理敏感个人信息需要"具有特定的目的和充分的必要性,并采取严格保护措施"。
第二十九条:处理敏感个人信息应当取得个人的单独同意。

这两条对临床研究意味着什么?第一,"特定的目的和充分的必要性"——你的研究本身就证明了必要性,这一点成立。第二,"单独同意"——回顾性研究中,200例患者逐一联系获取单独同意在操作上几乎不可能。这里有一个关键的合规出路,见于《个人信息保护法》第四条:

《个人信息保护法》第四条:匿名化处理后的信息,不属于个人信息。

也就是说,如果你把病历里的个人信息处理到"无法识别特定自然人且不能复原"的程度,处理后的数据不再属于个人信息——不需要单独同意,不需要遵循敏感个人信息的处理限制。这是回顾性研究里最现实的合规路径。

但要区分两个容易混淆的概念:

去标识化:删除了直接标识符(姓名、身份证号),但保留了能间接关联的字段,且存有对应关系表可以恢复识别。去标识化后的数据仍然是个人信息,仍受法律保护。

匿名化:彻底删除所有标识符和对应关系表,通过技术手段验证后无法复原识别。匿名化后的数据不再属于个人信息,可以自由用于科研分析。

对回顾性研究来说,目标不是要把数据搞到法律的"匿名化"标准——这个标准极难达到,需要k-匿名化、差分隐私等技术验证和第三方机构出具合规报告。实际可行的目标是:在录入的同时完成去标识化处理,使研究数据库内的数据不再包含可直接识别患者身份的信息。在此基础上,配合数据安全管理措施(加密存储、权限控制、使用范围限制),构成合规使用的基础。

这一套法律框架之外,还涉及《数据安全法》的数据分类分级要求,以及如果研究中涉及基因、生物样本数据时需遵循的《人类遗传资源管理条例》。而国家标准GB/T 39725—2020《信息安全技术 健康医疗数据安全指南》提供了更细颗粒度的处理建议——它的核心价值在于告诉你"哪类数据按什么标准保护",可以作为操作手册使用。

一份病历里的哪些字段需要处理

病历里的信息不是所有都需要脱敏——研究需要的核心变量(检验数值、诊断、用药记录)通常不直接指向个人身份。需要处理的是两类:直接标识符和强间接标识符。

类别病历中的字段处理方式示例
直接标识符患者姓名替换为研究编号"张XX" → "P001"
身份证号仅保留年龄或出生年份"3201XX199504XX1234" → "29"(或删除)
电话号码删除
住院号仅保留后4位"2021031857" → "1857"
强间接标识符
(组合可识别)
详细家庭地址仅保留到省/市级"南京市鼓楼区XX路XX号" → "南京市"
住院日期仅保留年月"2021-03-18" → "2021-03"

有几类字段虽然不直接标识个人,但在特定研究中需要小心处理:

职业:如果研究样本量不大且涉及罕见职业(如"本市唯一一家专科口腔医院的颌面外科主治医师"),单独职业信息就能锁定身份。一般建议替换为职业大类("医疗"),或完全删除。

精确年龄 + 罕见疾病组合:一个小样本研究中,如果同时记录了患者的精确年龄和罕见病诊断,在某些地区(如某三甲医院该罕见病仅接收过一例特定年龄患者),这个组合就等于直接标识。这种情况需要将年龄替换为年龄段。

住院号的处理逻辑:住院号需要保留一部分作为不同数据来源合并的桥梁——检验数据和病历文书的患者对应全靠它。但完整住院号是直接标识符。保留后4位既能用于同一患者数据匹配,又不足以单独或组合识别个人。

把脱敏规则写进列名——提取的同时自动完成处理

理解了哪些字段需要脱敏、各自怎么处理,下一步的问题就变成了:怎么让这个动作和转录同步执行,而不是单独做一遍?

简录AI的自定义列名提取功能提供了这个可能性。它的工作方式是:你输入想要的列名——比如"住院号""姓名""入院诊断""基线血红蛋白"——AI根据列名的语义在文档中定位对应信息并填入。这不按坐标框选,不依赖模板匹配,而是理解字段含义后在整个页面中搜索。

关键特性在此:推断列。你可以在列名中附加处理规则,AI在提取时不仅读取原始数据,还会按规则对输出做处理。例如:

列名写为 住院号(仅保留后4位) → AI提取到"2021031857"后,自动输出"1857"
列名写为 患者地址(仅保留到市级) → AI提取到"南京市鼓楼区XX路XX号"后,输出"南京市"
列名写为 住院日期(仅保留年月) → AI提取到"2021-03-18"后,输出"2021-03"

这意味着:你上传的是包含完整信息的病历截图,但导出到Excel的已经是处理后的数据。姓名列在提取前就被替换为研究编号——因为列名里你根本就没写"姓名",而是直接写了"研究编号"。住院号、地址、日期——每列的脱敏规则写在列名里,AI读取文档时一并执行。

脱敏不再是转录之后的另一个环节——它就是转录的一部分。一次处理,同时完成"提取"和"脱敏"两件事。这比"先全部录入再统一脱敏"多了一道安全保障:敏感数据不存在于任何中间态,它从进入Excel的那一刻起就是脱敏后的状态。

JPG/PNG/PDF AI 提取

文件经过安全处理后不会被存储

三步操作:从病历截图到脱敏后的研究数据表

以下是嵌入脱敏规则的完整操作流程,每一个步骤都是明天可以直接执行的:

1

建好列名,把脱敏规则写进去

在简录AI里新建一个提取模板。研究编号列用连续编号而非提取(如从P001开始的手动序列)。住院号列写为"住院号(仅保留后4位)"。地址列写为"地址(仅保留到市级)"。日期列写为"入院日期(仅保留年月)"。不需要脱敏的检验指标就写正常的字段名——AI会按列名的语义分别处理。

2

分批上传病历截图

按来源分批:检验报告截图放一批,病历文书截图放另一批。不同来源的信息格式差异大,分批处理让AI识别更稳定。一批处理完成后,按住院号后4位做VLOOKUP合并不同来源的数据——这正是保留住院号后4位的用处。

3

导出Excel后立即抽查脱敏效果

每处理10-20例,随机抽几份原始病历截图,对照导出的Excel检查:住院号是否只保留了后4位?地址是否截断到了市级?日期是否只有年月?确认脱敏处理正确后再继续。保存一份脱敏字段与原始字段的对照说明,附在研究方法部分——这是伦理审查中常被问到的内容。

关于数据存储:导出后的Excel文件建议加密存储(Windows/Mac都支持文件密码加密),访问权限限定在研究组成员内。如果文件需要在多台设备间传输,使用加密压缩包而非直接发邮件附件。这属于通用的数据安全管理措施,不复杂,但做了和没做在合规审查中是两个层面的事。

常见问题

如果数据做到了去标识化处理(直接标识符删除、间接标识符模糊化、对应关系表安全存储且不对外提供),且研究经过了伦理委员会审批,实践中伦理审查通常会同意免知情同意。但如果数据以完全可识别状态在研究团队内部流转,则必须取得同意。伦理委员会审批时重点关注的就是"你采取了什么措施保护隐私"——把脱敏方案写清楚,是伦理审批顺利通过的重要条件。

住院号是否可以完全删除?

如果所有数据只来自同一个来源(比如只从病历首页提取),删除住院号没问题——患者通过研究编号即可区分。但如果需要合并不同来源的数据(检验报告+病历文书),就需要一个跨来源的匹配字段。保留住院号后4位是一个折中方案:统计上,随机200例患者中出现相同后4位的概率极低;隐私上,仅凭后4位无法锁定患者身份。

去标识化和匿名化有什么区别?我的研究数据属于哪一种?

去标识化:标识符被移除或模糊化,但技术上仍可能通过对应关系表或其他辅助信息恢复识别——处理后的数据仍是个人信息。匿名化:标识符和对应关系均永久删除,经技术验证无法复原——处理后的数据不再属于个人信息。

绝大多数回顾性研究中,你的数据是去标识化数据——因为研究编号和原始住院号之间存在对应关系(你需要这个关系来核查数据),而且住院号后4位在数据合并时仍有桥梁作用。这符合伦理审查的一般要求,只要加上加密存储和权限控制。目标不是做到法律意义上的"完全匿名化"(这需要独立第三方出具合规报告),而是"在现有的研究流程内尽到合理的去标识化义务"。

病历文书(病程记录、出院小结)里的自由文本怎么脱敏?

自由文本中的个人信息散落在段落里,不像表格字段那样有固定位置。简录AI处理这类情况的方式是:如果列名是"研究编号(不包含姓名)",AI在提取时不会输出患者姓名——它理解"不包含姓名"这个指令的语义限制。

但对于叙述性文本中可能嵌入的间接信息(如"患者职业为小学教师,住南京市鼓楼区"),AI无法自动识别并删除这些散落文本中隐含的标识——这不是当前AI能做到的。因此,如果需要提取自由文本中的叙述性信息,建议在定义变量时,将需要提取的内容限定在表格化/结构化字段内,避免提取自由叙述段落。

使用在线工具处理病历数据,工具本身是否合规?

简录AI处理文件时不存储数据,处理完成后文件从服务器删除。但如果你所在机构对数据存储有更严格的要求(如不允许数据离开院内网络),需要先确认机构的数据安全政策是否允许使用云端AI工具。

额外建议:在上传之前,可以把病历截图里的患者姓名做物理遮盖(截图时裁剪掉姓名行,或者上传前涂黑)——这比完全依赖AI的语义处理多一层防护。两层防护叠加(物理遮盖 + 列名脱敏规则),把敏感信息泄露的风险降到最低。

从病历截图到脱敏后的研究数据表,一步完成

定义好带脱敏规则的列名,上传截图,导出的Excel已经是处理后的合规数据。

开始免费使用