谁定义了公平？一个轻量级提示工程框架让AI图像生成中的群体代表性民主化了

核心发现

本研究提出一种无需重训模型的 推理时公平性干预框架，允许用户自定义人口统计学分布目标，直接通过修改提示词 来纠正Stable Diffusion等图像生成模型中的职业偏见，而无需访问模型内部参数。

【导读】当用户输入“医生”或“CEO”时，主流文生图模型往往会生成浅肤色人群图像，而“清洁工”等低地位职业则更多呈现深肤色——这是一种系统性的 社会偏见复制。来自加州大学的研究人员提出了名为 Target-Based Prompting 的解决方案，将公平性的定义权从模型开发者手中移交给终端用户。

【核心突破】与传统方法对比，新框架实现了三大关键创新：

维度	传统方法	本框架
干预层级	需重训模型或清洗数据集	仅修改输入提示词
公平性定义权	由模型开发者预设单一标准	用户可选择均匀分布、LLM建议分布或自定义分布
部署门槛	需要深度技术栈	普通用户直接可用
透明度	黑箱式修正	可审计、可解释的“目标声明-反馈”闭环

该方法将“公平性”拆解为 多层级目标声明：

均匀分布：各肤色组别各占25%
LLM辅助分布：基于人口普查数据或社会调查，由大语言模型生成带置信度的比例建议
自定义分布：用户直接输入肤色空间（如Fitzpatrick量表）上的目标比例

【深度解析】框架的工作流分为三个阶段：

目标定义阶段：用户通过简单滑块或LLM对话界面，声明期望的人口统计学分布目标
提示生成阶段：根据目标比例，自动构建多个具有不同人口统计学属性的提示词变体（如“一位浅色皮肤的CEO”、“一位深色皮肤的CEO”），并按比例分配生成请求
审计对齐阶段：对生成的图像进行肤色分析，计算实际分布与目标分布之间的偏差

为什么这不只是一个AI问题？

传统方法试图用单一“公平”定义矫正所有场景，这反而可能引发争议。该研允许用户选择“公平”的具体含义（例如，某个地区的人口统计数据、特定目标受众的偏好），本质上是将价值观设定权下放。

点击展开技术原理细节

提示词变体构建逻辑

对于输入提示“一位CEO”，系统会：

解析职业关键词并构建”人口统计学-属性”映射矩阵
根据用户目标分布T = {g₁: p₁, g₂: p₂, …}（其中g为群体，p为比例）
生成提示集合P = {“一位浅肤色的CEO”, “一位中等肤色的CEO”, …}
以随机采样+逆变换法确保每个提示被调用的次数符合目标分布

评估指标

论文使用 Skin Tone Distance (STD) 量化偏差：STD = Σ(target_ratio - observed_ratio)²，值越小表示越符合用户声明目标。

【未来展望】这一框架打开了 用户可控的AI公平性 新范式：

可组合的公平性：未来可扩展至年龄、性别、体型等多维度联合分布
潜在风险：可能被滥用为恶意强化特定偏见（例如刻意边缘化某些群体）
标准化挑战：需建立跨模型的肤色分类标准（如Fitzpatrick量表与Monk Skin Tone的映射）

伦理警示

尽管赋予用户选择权值得肯定，但完全自由的市场化“公平性”可能导致 算法种族隔离——不同社区采用截然不同的代表性标准，反而加剧社会分裂。作者也承认，需要更严格的审计机制来防止恶意使用。

一句话总结：这不是教你如何“消除”偏见，而是让你自己决定什么是“公平”——并且只用改改提示词就能实现。

阅读原文：https://arxiv.org/abs/2604.21036