个人信息保护法(PIPL)时代:文档AI工具把
个人信息传到了谁的服务器上?
2025年,迪奥(上海)因未通过数据出境安全评估、未取得用户单独同意,将用户个人信息违规传输至法国总部,被公安机关处以警告并责令改正。同年,上海一家酒店管理企业在网信办明确告知"出境必要性不足"后,仍继续向境外传输用户个人信息,被处以罚款。这不是遥远的法律条文——这是正在发生的真实执法。
《个人信息保护法》(PIPL)自2021年11月1日施行以来,2025年进入了密集执法期。而企业日常使用文档AI/OCR工具处理发票、合同、工资单、身份证复印件时——每一张单据上都可能承载着PIPL定义的"个人信息",每一次上传都是一次受法律管辖的"个人信息处理活动"。你用的工具,把数据传到了哪里?这篇文章不是普法讲义,是一份实战合规审查清单。
Key Takeaways
- 2025年迪奥被网信办公开处罚,不是因为它恶意收集或倒卖用户数据——只是因为把含个人信息的文件传到了境外服务器,而上传文件的那个人直到被查才知道"使用海外AI工具"在法律上等于"数据出境"。
- 你处理发票和工资单时从没想过PIPL——但一张增值税发票上的个体工商户税号就是身份证号、一张工资单上的银行账号就是敏感个人信息,而海外文档AI工具每处理一张,就在你不知情的情况下同时触发了数据出境、委托处理、模型训练使用这三项未经核查的合规动作。
- 简录AI对这个问题的解法不是提供更详细的法律免责声明——是三条风险从物理层被切断:服务器全在中国境内、处理完成自动删除原始文件、用户数据永不入模型训练管线。
PIPL不是"遥远的法律"——你上传的每一张发票都在它的管辖范围
很多企业IT负责人对PIPL的感知是:"我们又不是互联网大厂,不收集用户数据,PIPL跟我们有什么关系?"
这个感知是错的。PIPL的管辖范围由三个条件界定(第三条):
- 境内处理:只要在中国境内处理自然人个人信息,PIPL就适用——无论企业规模大小
- 境外处理但服务境内:向中国境内自然人提供产品/服务而处理其信息的,同样适用——这是域外管辖条款
- 分析评估境内行为:以分析评估境内自然人行为为目的的数据处理,也在PIPL射程内
解读成一句大白话:只要你处理了中国人的个人信息,不管你的服务器在上海还是硅谷,PIPL都适用。
再看"个人信息"的定义(第四条):"以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息"。这个定义之宽泛,几乎覆盖了任何带有个人标识符的数据——姓名、身份证号、电话号码、住址、银行账号、人脸照片,甚至IP地址和设备ID。而这些信息,恰恰大量出现在企业日常处理的纸质和电子文档上。
关键认知
PIPL不是只适用To-C App的隐私法。企业用任何工具处理含有个人信息的文档——无论是发票OCR、合同提取、工资单录入——只要涉及"收集、存储、使用、加工、传输"个人信息,就构成法律意义上的"个人信息处理活动"。PIPL对"处理"的定义(第四条)包含十个动作:收集、存储、使用、加工、传输、提供、公开、删除——每个动作都在管辖范围内。
你上传的发票和合同里,藏着你在PIPL下最敏感的法律义务
文档AI处理的不只是"字"——是个人信息,而且很大概率是PIPL定义的"敏感个人信息"。
PIPL第二十八条将敏感个人信息定义为"一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息",包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹,以及不满十四周岁未成年人的个人信息。
对照一下企业日常用文档AI处理的文件:
| 文档类型 | 含有的个人信息 | PIPL分类 |
|---|---|---|
| 增值税发票 | 企业名称、税号(含个人身份证号)、地址、电话、银行账号 | 个人/敏感 |
| 劳动合同 | 姓名、身份证号、住址、电话、紧急联系人、银行账号 | 个人信息 + 敏感 |
| 工资单 | 姓名、身份证号、银行账号、薪资明细 | 敏感(金融账户) |
| 身份证复印件 | 姓名、身份证号、照片、住址 | 敏感(特定身份) |
| 体检报告 | 姓名、身份证号、病史、检查结果 | 敏感(医疗健康) |
| 银行对账单 | 姓名、账号、交易记录、余额 | 敏感(金融账户) |
处理敏感个人信息会触发PIPL的更高合规门槛:必须有"特定的目的和充分的必要性"(第二十八条),必须取得个人的单独同意(第二十九条),必须事前进行个人信息保护影响评估(PIA,第五十五条)。换句话说,你公司用一套海外文档AI工具批量处理了几百张员工工资单——这意味着你在没有PIA评估、没有单独同意、数据已出境的情况下处理了大量敏感个人信息。这在PIPL框架下,每一项都是违规。
文档AI工具最被忽视的三大合规风险:不知情的数据出境、被喂进模型、存着不删
大多数企业采购文档AI工具时,关注的是准确率和价格。但PIPL框架下,有三个风险是"你不动它就动你"的级别。一个一个拆。
风险一:不知情的数据出境——你的发票在路上,去了你看不到的服务器
海外文档AI工具的默认服务器通常不在中国境内。当你上传一张中文发票,图片数据传输到工具商的云端——如果这个云端在AWS美东或Google Cloud新加坡——这构成了PIPL定义的"向境外提供个人信息"。而跨境数据传输在PIPL下有严格的合规条件(第三十八条):必须通过网信办安全评估、或取得个人信息保护认证、或与境外接收方签订标准合同,且需取得个人的单独同意(第三十九条)。
对于关键信息基础设施运营者(CIIO)或处理个人信息达到一定体量的企业,PIPL还有数据本地化要求(第四十条)——个人信息原则上应在中国境内存储,确需出境的须通过网信办安全评估。
现实场景:一家中型制造企业,财务部门用一款美国文档AI工具处理供应商发票。每张发票上有开票方的税号(个体工商户税号=身份证号)、地址、电话。这些数据每上传一次,就触发一次跨境数据传输——而财务部门直到被抽查才意识到这既是"处理个人信息"、又是"数据出境"。
2025年上海某物业企业被网信办处罚的案例正是此情形的镜像:该企业运营的APP向境外传输用户住宿信息及金融账户等敏感个人信息,未申报安全评估、未订立标准合同、未通过认证——三项合规路径一项未走,直接违规。
风险二:你的数据被用于训练AI模型——"免费试用"背后的隐性代价
这是近两年AI工具最敏感的合规争议之一:用户上传的文档是否被用作模型训练数据?
PIPL虽然未像GDPR那样对"自动化决策"有详尽的反对权条款,但第二十四条要求自动化决策"保证决策的透明度和结果公平、公正",且处理个人信息必须遵循"目的限制"原则(第六条)——你上传发票是为了提取数据,不是为了让AI学会读发票。如果工具商将用户上传的文档用于模型训练,意味着处理目的超出了用户授权范围,违反目的限制原则。
更致命的是:如果用于训练的数据包含个人信息且被传输到境外训练服务器——这在2015年微软等公司公开的研究中就验证过,大模型确实可能在参数中"记住"训练数据中的个人信息片段。这意味着这些个人信息可能以不可预料的方式被永久性地嵌入模型中,永远无法真正删除。
2024年9月30日发布的《网络数据安全管理条例》第二十四条进一步明确,网络数据处理者利用自动化采集技术(如网络爬虫)收集数据时,不得非法侵入他人网络、不得干扰网络服务正常运行、不得窃取或以其他非法方式获取数据。而《生成式人工智能服务管理暂行办法》(2023年8月15日施行)第七条要求训练数据"不得含有侵犯知识产权的内容",虽未直接说"个人信息",但第八条明确将"尊重他人合法权益""防止伤害他人身心健康"作为服务规范。
风险三:处理完的数据,是不是真的删了?
PIPL第十九条明确规定:"个人信息的保存期限应当为实现处理目的所必要的最短时间。"
这条法规翻译成实际操作场景:你上传发票是为了提取数据——提取完成的那一刻,处理目的已经实现。此时,文档本身(含个人信息)的保存必要性已经消失。如果工具商继续存储——无论是为了做缓存、做日志、做产品分析——都违反了"目的限制"和"最短保留期"两个原则。
但问题在于:绝大多数SaaS工具的用户协议都没有写清楚"数据处理完成后多长时间内永久删除"。有的写"we may retain your data for as long as necessary to provide our services",有的是"we may retain aggregated, anonymized data indefinitely"——后一种表述在法律上更微妙:匿名化处理后的数据确实不受PIPL管辖,但"去标识化"不等于"匿名化"。PIPL第四条明确指出匿名化后的信息才不属于个人信息,而去标识化后的信息仍受法律约束。
三个风险的共同点
它们都发生在后台——用户看不到的地方。上传文档、看到结果、导出Excel——前端体验流畅无感。但数据在上传后的每一步路由,决定了你是否在不知不觉中违反了PIPL。风险的可怕之处不是"它已经发生了",而是"你根本不知道它有没有发生"。
选文档AI工具前,必须问供应商的10个合规问题
以下10个问题不解决技术细节——它们解决的是法律义务的可验证性。每一条都直接对应一条PIPL条款。
处理服务器在中国境内吗?
对应PIPL第三十八条、第四十条。如果是境外服务器,每次上传都触发跨境数据传输合规义务——安全评估、标准合同、或认证——三者至少走一条。如果工具商无法提供上述合规路径的完成证明,建议停止使用。追问一句:CDN节点、日志服务器、备份服务器也在境内吗?
用户上传的文档是否用于AI模型训练或产品改进?
对应PIPL第六条(目的限制原则)。很多工具商的服务条款中隐藏了"we may use your data to improve our services"的条款。必须要求书面确认——不是口头承诺——上传数据不被用于训练、微调或评估任何AI模型。如果供应商提供opt-out机制,确认opt-out是否默认开启。
数据处理完成后,文档在多长时间内被永久删除?
对应PIPL第十九条(最短保留期)。你需要一个明确的时间数字——不是"合理时间内",不是"我们将尽力"。是"提取完成后立即删除"还是"保留72小时后自动清除"?数据删除是逻辑删除还是物理覆写?有没有清除机制的可验证记录?
数据传输和存储是否加密?加密密钥由谁控制?
对应PIPL第五十一条(安全技术措施)。传输至少要求TLS 1.2+,存储要求AES-256。但更关键的是密钥管理权——如果工具商持有加密密钥,他们理论上可以解密你的数据;如果你自己管理密钥(如KMS),你对数据有最终控制权。追问:是否支持BYOK(自带密钥)?
工具商是否签署数据处理协议(DPA)?
对应PIPL第二十一条(委托处理)。在PIPL框架下,使用第三方工具处理个人信息属于"委托处理",你和工具商之间必须有约定处理目的、期限、方式、信息种类、保护措施和双方权利义务的合同。如果供应商说"我们的用户协议里都写了"——不够。需要单独的DPA,明确工具商的角色是"受托人"。
发生数据泄露时,工具商的通知机制和时限是什么?
对应PIPL第五十七条。PIPL要求个人信息处理者在发生或可能发生泄露时"立即"采取补救措施并通知监管部门和个人。这里的"个人信息处理者"是你——但如果泄露发生在工具商侧,你需要在第一时间知道才能履行通知义务。要求供应商在DPA中明确泄露通知时限(建议不超过24-48小时)。
有没有第三方子处理者?他们是谁?
对应PIPL第二十一条、第二十三条。文档AI工具链上可能有多个第三方——云服务商(AWS/阿里云/华为云)、AI模型服务商(如调用OpenAI API)、日志分析工具、错误追踪服务。每一个第三方都是一条数据传输链路。必须要求供应商列出所有子处理者名单及其所在地,并确认这些链路都受DPA约束。
是否支持客户对数据处理活动进行合规审计?
对应PIPL第五十四条(定期合规审计)。PIPL要求个人信息处理者定期进行合规审计——2025年5月1日施行的《个人信息保护合规审计管理办法》进一步要求超过1000万用户的处理者每两年至少审计一次。如果你自己都不能审计工具商的数据处理活动,你怎么完成审计义务?要求工具商提供SOC 2报告或等效的独立审计报告。
企业终止使用服务后,历史数据如何处理?
对应PIPL第十九条、第二十一条。你不再使用这个工具了——但之前处理过的几万张发票数据还在不在他们系统里?PIPL要求委托合同终止后,受托人应将个人信息返还或删除,不得保留(第二十一条)。需要供应商在合同中明确终止后数据销毁的时间线和方式,并要求提供销毁完成的书面确认。
持有哪些安全认证?(等保/ISO 27001/SOC 2)
对应PIPL第五十一条及《网络安全法》第二十一条(等级保护要求)。在中国境内运营的系统至少应具备等保(网络安全等级保护)资质。ISO 27001和SOC 2 Type II是国际认可的安全管理标准。但这些认证只是底线——它们证明有安全体系,不直接证明PIPL合规。最终还要看前9个问题的答案。
这10个问题覆盖了PIPL合规的四个支柱——数据本地化(Q1)、目的限制和最小必要(Q2、Q3)、安全措施(Q4、Q6、Q10)、委托处理关系(Q5、Q7、Q8、Q9)。如果你的文档AI供应商能给出这10个问题清晰、书面、可验证的答案,你在PIPL合规上已经迈出了最关键的一步。
简录AI的合规架构——不是承诺,是部署方式决定的
上面的10个问题,不只是给别人用的——我们自己也用这套标准审视自己。以下是简录AI的合规架构,用刚才那10个问题的框架来回答。
| 审查维度 | 简录AI的实际情况 |
|---|---|
| 服务器部署 | 全部部署在中国境内服务器。处理、存储、备份均在境内——不触发跨境数据传输合规义务 |
| 模型训练 | 用户上传的文档不用于任何AI模型的训练、微调或评估。用户数据与模型训练管线物理隔离 |
| 数据保留 | 文档处理完成后自动删除,不在服务器上持久化留存。支持用户配置保留策略——你决定删除时机,不需要等我们 |
| 加密 | 传输全程TLS加密,存储端AES-256加密 |
| 子处理者 | 核心引擎为自研视觉大模型,不依赖第三方AI模型API——没有额外的数据传输链路。底层云基础设施使用中国境内合规云服务商 |
| 访问控制 | 严格的内部分级访问权限控制;用户数据处理全流程记录审计日志 |
这里要诚实地说清楚几点:简录AI作为一款"提示词驱动的文档数据提取工具"——你在界面里输入列名(如"姓名""身份证号""电话号码"),AI根据语义在文档中定位对应值填入表格——不是OCR坐标定位,不是预设模板匹配。AI能看到文档上的所有文字,因为只有理解了整张文档的内容,它才能判断"哪个数字是金额""哪个日期是开票日期"。这意味着如果你上传的文件包含个人信息,AI在处理过程中会"读取"这些信息——但从架构层面,这个过程发生在境内服务器上,完成后即时删除,不入库、不训练、不留存。
如果你需要处理大量含敏感个人信息的文件(如批量工资单提取到Excel、批量发票数据录入),建议先与我们确认你的数据处理规模和合规需求,以便评估是否需要对处理方案做额外配置。
企业自查清单:你的文档处理流程在PIPL下的合规度有多高?
下面是一份简化的自检清单,适合企业IT或合规负责人在采购或使用文档AI工具前做一次快速扫描。每条后面标注了对应的PIPL条款。
文档AI工具使用合规自检清单
- 我清楚知道工具处理了我的哪些类型的个人信息吗?——如果有身份证号、银行账号、健康信息,你在处理敏感个人信息(PIPL第28条)。
- 数据处理服务器在中国境内吗?——如果不在,是否已完成安全评估/签订标准合同/取得认证(PIPL第38条)?
- 是否对涉及敏感个人信息的处理活动进行了PIA(个人信息保护影响评估)?——评估报告至少保存三年(PIPL第55、56条)。
- 是否与工具商签署了DPA,明确了委托处理关系?——无DPA的委托处理在PIPL下是灰色地带(PIPL第21条)。
- 工具商是否出具了"不用于模型训练"的书面确认?——口头承诺和产品页宣传语不构成法律保障。
- 数据保留和删除策略是否明确、可验证?——"最短时间"必须是具体数字(PIPL第19条)。
- 是否建立了数据泄露应急预案,并确认了工具商的泄露通知机制?——通知时限必须在合同中有约定(PIPL第57条)。
- 是否定期对工具商的数据处理活动进行了合规审计或持有其独立审计报告?——2025年5月1日起,合规审计要求已进一步细化(PIPL第54条,《个人信息保护合规审计管理办法》)。
如果你发现上面有超过两项答案是"不确定"或"没有"——建议暂停使用该文档AI工具处理含个人信息的文件,先完成供应商合规审查。PIPL的执法节奏是加速而非放缓:2025年一年内公开数据出境违规案例数量已超过前三年总和。合规不是成本——是"不被罚"的前提。
常见问题
我只处理内部员工的文档(工资单、合同),不涉及外部用户——PIPL还管吗?
管。PIPL不区分"内部"和"外部"——只要处理自然人的个人信息就适用。员工是自然人,工资单含银行账号(敏感个人信息),合同含身份证号和住址。而且人力资源管理场景下的数据处理,PIPL第十三条虽然给了"按照依法制定的劳动规章制度"的合法处理基础,但这不是豁免——你仍需满足安全保护义务、最小必要原则和目的限制。特别是如果你使用外部工具处理这些数据——这构成委托处理,需要DPA。
如果我用的文档AI工具支持"不保存数据"的选项,是不是就安全了?
这是一个好迹象,但不够。"不保存"只解决了PIPL第十九条(保留期限)的要求。你还需要确认:(1)服务器在哪——即使不保存,处理过程中的数据传输如果出境了,仍属于跨境数据传输;(2)数据是否用于训练——有些工具即使在用户侧"不保存",但在传输过程中做实时分析或脱敏后采样,最终进了训练集;(3)日志中是否记录了个人信息——即使文件被删除,访问日志、错误日志中可能保存了文件路径、元数据甚至片段内容。
小公司用文档AI工具也有PIPL合规风险吗?执法不是只查大企业吗?
PIPL没有"小企业豁免"条款——这与GDPR不同。只要处理个人信息,无论企业规模大小,都受PIPL约束。而且,小企业的合规脆弱性更高——没有法务团队、没有专职安全人员、通常直接使用SaaS工具的默认配置。2025年北京两家科技公司因未配置访问控制导致个人信息暴露在互联网上,分别被网信办处以警告并处5万元罚款——这两家就是典型的非大厂企业。罚款金额虽然不高,但违规记录进入信用档案(PIPL第六十七条)——这对企业的投标、融资、上市都会产生连锁影响。
简录AI处理完文档后,数据真的完全不保留吗?怎么验证?
简录AI处理文档后自动删除原始文件和中间数据。用户可通过企业版了解数据处理的完整链路——包括处理时间戳、删除时间戳等信息。如果你需要更高的合规保障(如私有化部署、独立审计),可以联系我们的企业服务团队评估定制化方案。我们不回避验证问题——合规不能靠"信我们",应该靠可审计的证据。
如果我已经在使用海外文档AI工具,现在怎么办?
第一步:确认你的使用是否涉及个人信息——对照本文第二段的表格检查。如果不涉及(比如只处理不含任何个人标识符的纯产品目录、产品规格书),风险较低。如果涉及,第二步:向工具商索要本文10个问题的书面答复。第三步:根据答复判断是否需要切换到合规方案——比如迁移到境内部署的工具,或要求现有工具商签署DPA并提供跨境传输合规证明。最重要的是:别等执法通知再行动——2025年的执法趋势表明,事后被动整改的成本远高于主动合规。
合规不是选择题——PIPL时代,它是每一家处理数据的企业的必答题。你不是在"要不要合规"之间做选择,你是在"主动合规"和"被动遭罚"之间做选择。
处理完自动删除,不用于模型训练,全部境内服务器