回到列表

谁定义了公平?一个轻量级提示工程框架让AI图像生成中的群体代表性民主化了

核心发现
本研究提出一种无需重训模型的 推理时公平性干预框架,允许用户自定义人口统计学分布目标,直接通过修改提示词 来纠正Stable Diffusion等图像生成模型中的职业偏见,而无需访问模型内部参数。

【导读】当用户输入“医生”或“CEO”时,主流文生图模型往往会生成浅肤色人群图像,而“清洁工”等低地位职业则更多呈现深肤色——这是一种系统性的 社会偏见复制。来自加州大学的研究人员提出了名为 Target-Based Prompting 的解决方案,将公平性的定义权从模型开发者手中移交给终端用户。

【核心突破】 与传统方法对比,新框架实现了三大关键创新:

维度传统方法本框架
干预层级需重训模型或清洗数据集仅修改输入提示词
公平性定义权由模型开发者预设单一标准用户可选择均匀分布、LLM建议分布或自定义分布
部署门槛需要深度技术栈普通用户直接可用
透明度黑箱式修正可审计、可解释的“目标声明-反馈”闭环

该方法将“公平性”拆解为 多层级目标声明

  1. 均匀分布:各肤色组别各占25%
  2. LLM辅助分布:基于人口普查数据或社会调查,由大语言模型生成带置信度的比例建议
  3. 自定义分布:用户直接输入肤色空间(如Fitzpatrick量表)上的目标比例

【深度解析】 框架的工作流分为三个阶段:

  • 目标定义阶段:用户通过简单滑块或LLM对话界面,声明期望的人口统计学分布目标
  • 提示生成阶段:根据目标比例,自动构建多个具有不同人口统计学属性的提示词变体(如“一位浅色皮肤的CEO”、“一位深色皮肤的CEO”),并按比例分配生成请求
  • 审计对齐阶段:对生成的图像进行肤色分析,计算实际分布与目标分布之间的偏差
为什么这不只是一个AI问题?
传统方法试图用单一“公平”定义矫正所有场景,这反而可能引发争议。该研允许用户选择“公平”的具体含义(例如,某个地区的人口统计数据、特定目标受众的偏好),本质上是将价值观设定权下放
点击展开技术原理细节

提示词变体构建逻辑

对于输入提示“一位CEO”,系统会:

  1. 解析职业关键词并构建”人口统计学-属性”映射矩阵
  2. 根据用户目标分布T = {g₁: p₁, g₂: p₂, …}(其中g为群体,p为比例)
  3. 生成提示集合P = {“一位浅肤色的CEO”, “一位中等肤色的CEO”, …}
  4. 以随机采样+逆变换法确保每个提示被调用的次数符合目标分布

评估指标

论文使用 Skin Tone Distance (STD) 量化偏差:STD = Σ(target_ratio - observed_ratio)²,值越小表示越符合用户声明目标。

【未来展望】 这一框架打开了 用户可控的AI公平性 新范式:

  • 可组合的公平性:未来可扩展至年龄、性别、体型等多维度联合分布
  • 潜在风险:可能被滥用为恶意强化特定偏见(例如刻意边缘化某些群体)
  • 标准化挑战:需建立跨模型的肤色分类标准(如Fitzpatrick量表与Monk Skin Tone的映射)
伦理警示
尽管赋予用户选择权值得肯定,但完全自由的市场化“公平性”可能导致 算法种族隔离——不同社区采用截然不同的代表性标准,反而加剧社会分裂。作者也承认,需要更严格的审计机制来防止恶意使用。

一句话总结:这不是教你如何“消除”偏见,而是让你自己决定什么是“公平”——并且只用改改提示词就能实现。


阅读原文https://arxiv.org/abs/2604.21036