核心发现
本研究提出一种无需重训模型的 推理时公平性干预框架,允许用户自定义人口统计学分布目标,直接通过修改提示词 来纠正Stable Diffusion等图像生成模型中的职业偏见,而无需访问模型内部参数。
【导读】当用户输入“医生”或“CEO”时,主流文生图模型往往会生成浅肤色人群图像,而“清洁工”等低地位职业则更多呈现深肤色——这是一种系统性的 社会偏见复制。来自加州大学的研究人员提出了名为 Target-Based Prompting 的解决方案,将公平性的定义权从模型开发者手中移交给终端用户。
【核心突破】 与传统方法对比,新框架实现了三大关键创新:
| 维度 | 传统方法 | 本框架 |
|---|---|---|
| 干预层级 | 需重训模型或清洗数据集 | 仅修改输入提示词 |
| 公平性定义权 | 由模型开发者预设单一标准 | 用户可选择均匀分布、LLM建议分布或自定义分布 |
| 部署门槛 | 需要深度技术栈 | 普通用户直接可用 |
| 透明度 | 黑箱式修正 | 可审计、可解释的“目标声明-反馈”闭环 |
该方法将“公平性”拆解为 多层级目标声明:
- 均匀分布:各肤色组别各占25%
- LLM辅助分布:基于人口普查数据或社会调查,由大语言模型生成带置信度的比例建议
- 自定义分布:用户直接输入肤色空间(如Fitzpatrick量表)上的目标比例
【深度解析】 框架的工作流分为三个阶段:
- 目标定义阶段:用户通过简单滑块或LLM对话界面,声明期望的人口统计学分布目标
- 提示生成阶段:根据目标比例,自动构建多个具有不同人口统计学属性的提示词变体(如“一位浅色皮肤的CEO”、“一位深色皮肤的CEO”),并按比例分配生成请求
- 审计对齐阶段:对生成的图像进行肤色分析,计算实际分布与目标分布之间的偏差
为什么这不只是一个AI问题?
传统方法试图用单一“公平”定义矫正所有场景,这反而可能引发争议。该研允许用户选择“公平”的具体含义(例如,某个地区的人口统计数据、特定目标受众的偏好),本质上是将价值观设定权下放。
点击展开技术原理细节
提示词变体构建逻辑
对于输入提示“一位CEO”,系统会:
- 解析职业关键词并构建”人口统计学-属性”映射矩阵
- 根据用户目标分布T = {g₁: p₁, g₂: p₂, …}(其中g为群体,p为比例)
- 生成提示集合P = {“一位浅肤色的CEO”, “一位中等肤色的CEO”, …}
- 以随机采样+逆变换法确保每个提示被调用的次数符合目标分布
评估指标
论文使用 Skin Tone Distance (STD) 量化偏差:STD = Σ(target_ratio - observed_ratio)²,值越小表示越符合用户声明目标。
【未来展望】 这一框架打开了 用户可控的AI公平性 新范式:
- 可组合的公平性:未来可扩展至年龄、性别、体型等多维度联合分布
- 潜在风险:可能被滥用为恶意强化特定偏见(例如刻意边缘化某些群体)
- 标准化挑战:需建立跨模型的肤色分类标准(如Fitzpatrick量表与Monk Skin Tone的映射)
伦理警示
尽管赋予用户选择权值得肯定,但完全自由的市场化“公平性”可能导致 算法种族隔离——不同社区采用截然不同的代表性标准,反而加剧社会分裂。作者也承认,需要更严格的审计机制来防止恶意使用。
一句话总结:这不是教你如何“消除”偏见,而是让你自己决定什么是“公平”——并且只用改改提示词就能实现。