是什么
Privacy Filter 是 OpenAI 发布的开放权重 PII 检测模型,定位是「小规模模型 + 前沿 PII 检测能力」,供开发者在自有环境中部署用于文本隐私保护。
发布于 2026 年 4 月 22 日,以 Apache 2.0 协议授权,通过 Hugging Face 和 GitHub 提供完整权重和文档。
技术架构
模型采用双向 token 分类器(bidirectional token classifier)而非自回归生成架构,原因是 PII 检测是一个序列标注任务,而非文本生成任务:
- 输入:整段文本
- 处理:单次前向 pass,对每个 token 生成标签
- 输出:通过约束维特比解码(Constrained Viterbi decoder)将 token 级预测合并为连贯的脱敏区间
这套架构的推理成本比自回归模型低一个量级。1.5B 总参数中活跃参数只有 50M,适合在 CPU 或轻量 GPU 上高频运行。上下文窗口 128000 tokens,可以处理长文档或完整的 API 响应负载。
覆盖的 PII 类别
Privacy Filter 检测 8 类个人身份信息:
- 私人个人姓名(区别于公众人物的公开姓名)
- 地址
- 邮箱地址
- 电话号码
- URL(含个人主页等)
- 日期(在上下文中可识别特定个人的日期)
- 账户号码
- 密钥类信息(密码、API key、token)
「私人个人姓名」这个类别的划定方式值得关注:模型根据上下文判断姓名是否指向可识别的私人个体,而非简单过滤所有人名。这是规则引擎无法处理的模糊边界。
性能基准
在 OpenAI 校正后的基准上:
- F1:97.43%
- 精确率(Precision):96.79%
- 召回率(Recall):98.08%
OpenAI 在文档中特别说明了「校正后」的含义,原始基准存在标注质量问题,他们对测试集做了人工重新标注。这种透明度比直接引用数字更有信息量——说明原始基准本身有问题,而他们选择改数据而非只改模型。
局限声明
OpenAI 在文档中明确划定了边界:
- 不是合规认证的替代品——用于自动化脱敏不等于达到 GDPR、HIPAA 等法规要求
- 高风险场景(法律、医疗)仍需人工审查
- 支持针对特定领域 fine-tuning——暗示通用模型在某些垂直场景可能需要调整
开发者使用场景
Apache 2.0 授权 + 私有部署能力的组合让 Privacy Filter 适合以下场景:
- Agent 数据管道前置过滤:在用户输入进入 LLM 之前脱敏,避免 PII 进入 prompt 或日志
- RAG 数据清洗:在建立知识库之前扫描文档,去除不应被检索的个人信息
- 合规审计日志处理:在存储前对 API 响应或用户会话做自动脱敏
50M 活跃参数的推理开销允许作为流水线中的实时组件运行,而不需要单独的 GPU 资源。