医疗数据脱敏处理：临床科研中的数据合规方案

临床科研需要大量病历数据做支撑——这一点没人质疑。但原始病历里的姓名、身份证号、住院号、家庭住址是敏感个人信息，受到法律严格保护。把病历内容录入研究数据库时，合规要求和数据可用性之间有一个具体的张力：研究需要数据，但数据不能带着身份一起流转。这个问题的解法，不是"先转录再脱敏"——在回顾性研究的现实约束下，这条路走不通。

脱敏与转录必须同步——做两次，没人能完整执行

一个典型的回顾性研究场景：2019到2023年的住院病历，200例，每例要提取约30个变量。病历是纸质的或者HIS截图，没有任何结构化数据可以直接导入——你需要把每一条指标从病历里"读出来、敲进去"。

如果脱敏和转录分开做，意味着：先完整录一遍（含姓名、住院号），然后在另一个环节逐行处理敏感字段。这需要两遍完整的"过病历"——每遍都是200份 × 30字段的工作量。实际操作中，绝大多数课题组会在录入结束后放弃第二次脱敏：研究本身的紧迫性、论文截稿日期、人手有限——所有这些现实压力都指向同一个结果。

这不是合规意识问题，是执行可行性的问题。要求一个课题组对同一批病历做两遍完整处理，这个流程本身就不可持续。唯一的解法是：脱敏动作嵌入转录动作——录入的同时现场完成脱敏，不增加第二道工序。

法律不是挡路的，是指路的——理解几条和你的研究直接相关的规则

临床研究者不需要背诵整部《个人信息保护法》。但以下几条直接决定了你的数据收集工作应该怎么做：

《个人信息保护法》第二十八条：医疗健康信息属于敏感个人信息。处理敏感个人信息需要"具有特定的目的和充分的必要性，并采取严格保护措施"。
第二十九条：处理敏感个人信息应当取得个人的单独同意。

这两条对临床研究意味着什么？第一，"特定的目的和充分的必要性"——你的研究本身就证明了必要性，这一点成立。第二，"单独同意"——回顾性研究中，200例患者逐一联系获取单独同意在操作上几乎不可能。这里有一个关键的合规出路，见于《个人信息保护法》第四条：

《个人信息保护法》第四条：匿名化处理后的信息，不属于个人信息。

也就是说，如果你把病历里的个人信息处理到"无法识别特定自然人且不能复原"的程度，处理后的数据不再属于个人信息——不需要单独同意，不需要遵循敏感个人信息的处理限制。这是回顾性研究里最现实的合规路径。

但要区分两个容易混淆的概念：

去标识化：删除了直接标识符（姓名、身份证号），但保留了能间接关联的字段，且存有对应关系表可以恢复识别。去标识化后的数据仍然是个人信息，仍受法律保护。

匿名化：彻底删除所有标识符和对应关系表，通过技术手段验证后无法复原识别。匿名化后的数据不再属于个人信息，可以自由用于科研分析。

对回顾性研究来说，目标不是要把数据搞到法律的"匿名化"标准——这个标准极难达到，需要k-匿名化、差分隐私等技术验证和第三方机构出具合规报告。实际可行的目标是：在录入的同时完成去标识化处理，使研究数据库内的数据不再包含可直接识别患者身份的信息。在此基础上，配合数据安全管理措施（加密存储、权限控制、使用范围限制），构成合规使用的基础。

这一套法律框架之外，还涉及《数据安全法》的数据分类分级要求，以及如果研究中涉及基因、生物样本数据时需遵循的《人类遗传资源管理条例》。而国家标准GB/T 39725—2020《信息安全技术健康医疗数据安全指南》提供了更细颗粒度的处理建议——它的核心价值在于告诉你"哪类数据按什么标准保护"，可以作为操作手册使用。

一份病历里的哪些字段需要处理

病历里的信息不是所有都需要脱敏——研究需要的核心变量（检验数值、诊断、用药记录）通常不直接指向个人身份。需要处理的是两类：直接标识符和强间接标识符。

类别	病历中的字段	处理方式	示例
直接标识符	患者姓名	替换为研究编号	"张XX" → "P001"
	身份证号	仅保留年龄或出生年份	"3201XX199504XX1234" → "29"（或删除）
	电话号码	删除	—
	住院号	仅保留后4位	"2021031857" → "1857"
强间接标识符（组合可识别）	详细家庭地址	仅保留到省/市级	"南京市鼓楼区XX路XX号" → "南京市"
强间接标识符（组合可识别）	住院日期	仅保留年月	"2021-03-18" → "2021-03"

有几类字段虽然不直接标识个人，但在特定研究中需要小心处理：

职业：如果研究样本量不大且涉及罕见职业（如"本市唯一一家专科口腔医院的颌面外科主治医师"），单独职业信息就能锁定身份。一般建议替换为职业大类（"医疗"），或完全删除。

精确年龄 + 罕见疾病组合：一个小样本研究中，如果同时记录了患者的精确年龄和罕见病诊断，在某些地区（如某三甲医院该罕见病仅接收过一例特定年龄患者），这个组合就等于直接标识。这种情况需要将年龄替换为年龄段。

住院号的处理逻辑：住院号需要保留一部分作为不同数据来源合并的桥梁——检验数据和病历文书的患者对应全靠它。但完整住院号是直接标识符。保留后4位既能用于同一患者数据匹配，又不足以单独或组合识别个人。

把脱敏规则写进列名——提取的同时自动完成处理

理解了哪些字段需要脱敏、各自怎么处理，下一步的问题就变成了：怎么让这个动作和转录同步执行，而不是单独做一遍？

简录AI的自定义列名提取功能提供了这个可能性。它的工作方式是：你输入想要的列名——比如"住院号""姓名""入院诊断""基线血红蛋白"——AI根据列名的语义在文档中定位对应信息并填入。这不按坐标框选，不依赖模板匹配，而是理解字段含义后在整个页面中搜索。

关键特性在此：推断列。你可以在列名中附加处理规则，AI在提取时不仅读取原始数据，还会按规则对输出做处理。例如：

列名写为 住院号（仅保留后4位） → AI提取到"2021031857"后，自动输出"1857"
列名写为 患者地址（仅保留到市级） → AI提取到"南京市鼓楼区XX路XX号"后，输出"南京市"
列名写为 住院日期（仅保留年月） → AI提取到"2021-03-18"后，输出"2021-03"

这意味着：你上传的是包含完整信息的病历截图，但导出到Excel的已经是处理后的数据。姓名列在提取前就被替换为研究编号——因为列名里你根本就没写"姓名"，而是直接写了"研究编号"。住院号、地址、日期——每列的脱敏规则写在列名里，AI读取文档时一并执行。

脱敏不再是转录之后的另一个环节——它就是转录的一部分。一次处理，同时完成"提取"和"脱敏"两件事。这比"先全部录入再统一脱敏"多了一道安全保障：敏感数据不存在于任何中间态，它从进入Excel的那一刻起就是脱敏后的状态。

JPG/PNG/PDF AI 提取

文件经过安全处理后不会被存储

三步操作：从病历截图到脱敏后的研究数据表

以下是嵌入脱敏规则的完整操作流程，每一个步骤都是明天可以直接执行的：

建好列名，把脱敏规则写进去

在简录AI里新建一个提取模板。研究编号列用连续编号而非提取（如从P001开始的手动序列）。住院号列写为"住院号（仅保留后4位）"。地址列写为"地址（仅保留到市级）"。日期列写为"入院日期（仅保留年月）"。不需要脱敏的检验指标就写正常的字段名——AI会按列名的语义分别处理。

分批上传病历截图

按来源分批：检验报告截图放一批，病历文书截图放另一批。不同来源的信息格式差异大，分批处理让AI识别更稳定。一批处理完成后，按住院号后4位做VLOOKUP合并不同来源的数据——这正是保留住院号后4位的用处。

导出Excel后立即抽查脱敏效果

每处理10-20例，随机抽几份原始病历截图，对照导出的Excel检查：住院号是否只保留了后4位？地址是否截断到了市级？日期是否只有年月？确认脱敏处理正确后再继续。保存一份脱敏字段与原始字段的对照说明，附在研究方法部分——这是伦理审查中常被问到的内容。

关于数据存储：导出后的Excel文件建议加密存储（Windows/Mac都支持文件密码加密），访问权限限定在研究组成员内。如果文件需要在多台设备间传输，使用加密压缩包而非直接发邮件附件。这属于通用的数据安全管理措施，不复杂，但做了和没做在合规审查中是两个层面的事。

常见问题

如果数据做到了去标识化处理（直接标识符删除、间接标识符模糊化、对应关系表安全存储且不对外提供），且研究经过了伦理委员会审批，实践中伦理审查通常会同意免知情同意。但如果数据以完全可识别状态在研究团队内部流转，则必须取得同意。伦理委员会审批时重点关注的就是"你采取了什么措施保护隐私"——把脱敏方案写清楚，是伦理审批顺利通过的重要条件。

住院号是否可以完全删除？

如果所有数据只来自同一个来源（比如只从病历首页提取），删除住院号没问题——患者通过研究编号即可区分。但如果需要合并不同来源的数据（检验报告+病历文书），就需要一个跨来源的匹配字段。保留住院号后4位是一个折中方案：统计上，随机200例患者中出现相同后4位的概率极低；隐私上，仅凭后4位无法锁定患者身份。

去标识化和匿名化有什么区别？我的研究数据属于哪一种？

去标识化：标识符被移除或模糊化，但技术上仍可能通过对应关系表或其他辅助信息恢复识别——处理后的数据仍是个人信息。匿名化：标识符和对应关系均永久删除，经技术验证无法复原——处理后的数据不再属于个人信息。

绝大多数回顾性研究中，你的数据是去标识化数据——因为研究编号和原始住院号之间存在对应关系（你需要这个关系来核查数据），而且住院号后4位在数据合并时仍有桥梁作用。这符合伦理审查的一般要求，只要加上加密存储和权限控制。目标不是做到法律意义上的"完全匿名化"（这需要独立第三方出具合规报告），而是"在现有的研究流程内尽到合理的去标识化义务"。

病历文书（病程记录、出院小结）里的自由文本怎么脱敏？

自由文本中的个人信息散落在段落里，不像表格字段那样有固定位置。简录AI处理这类情况的方式是：如果列名是"研究编号（不包含姓名）"，AI在提取时不会输出患者姓名——它理解"不包含姓名"这个指令的语义限制。

但对于叙述性文本中可能嵌入的间接信息（如"患者职业为小学教师，住南京市鼓楼区"），AI无法自动识别并删除这些散落文本中隐含的标识——这不是当前AI能做到的。因此，如果需要提取自由文本中的叙述性信息，建议在定义变量时，将需要提取的内容限定在表格化/结构化字段内，避免提取自由叙述段落。

使用在线工具处理病历数据，工具本身是否合规？

简录AI处理文件时不存储数据，处理完成后文件从服务器删除。但如果你所在机构对数据存储有更严格的要求（如不允许数据离开院内网络），需要先确认机构的数据安全政策是否允许使用云端AI工具。

额外建议：在上传之前，可以把病历截图里的患者姓名做物理遮盖（截图时裁剪掉姓名行，或者上传前涂黑）——这比完全依赖AI的语义处理多一层防护。两层防护叠加（物理遮盖 + 列名脱敏规则），把敏感信息泄露的风险降到最低。

医疗数据脱敏处理：
临床科研中的数据合规方案

Key Takeaways

脱敏与转录必须同步——做两次，没人能完整执行

法律不是挡路的，是指路的——理解几条和你的研究直接相关的规则

一份病历里的哪些字段需要处理

把脱敏规则写进列名——提取的同时自动完成处理