实验室可信人工智能方向工作“Distilling the Essence, Discarding the Dross: Improving Fairness in Multimodal Large Language Models via Historical Reflection-Guided Prompt Optimization”被CCF A类会议Annual Meeting of the Association for Computational Linguistics(ACL)接收为Findings论文。该论文第一作者为吉林大学副教授胡俊成,通讯作者为吉林大学助理研究员李莹姬,其他合作者包括吉林大学24级博士生于济铭、助理研究员吕克敌和宋瑞,以及南开大学教授刘哲理。该论文提出了一种面向黑盒多模态大语言模型的去偏框架HRPO,通过引入历史对比信息引导的自我反思机制,在提示优化过程中实现有效经验的保留与冗余探索的抑制,从而自动生成更具公平性的去偏提示,显著降低模型输出中的刻板偏见,并提升整体优化效率。
研究背景
多模态大语言模型(MLLM)中的社会偏见问题正日益凸显。基于提示的方法为偏见缓解提供了一种轻量级路径,但现有方法高度依赖人工设计的提示,其鲁棒性不足、情境依赖性强,且难以在跨任务、跨偏见类型及多模态场景中实现有效泛化。

为此,本文提出一种基于历史反思引导的提示优化自适应去偏框架(HRPO),旨在缓解黑盒MLLM输出中的公平性风险。受自动提示优化研究的启发,HRPO充分利用大模型的推理与生成能力,以自适应方式迭代优化提示,从而增强去偏效果并减少偏见决策与歧视性内容的产生。针对提示优化过程中普遍存在的“遗忘”问题,即有效历史提示被忽略而低效路径被反复探索,本文进一步引入历史对比信息引导的自我反思机制(HCSR)。该机制通过向模型提供提示优化的历史轨迹,引导其对正负历史链进行对比性反思,从而激活历史记忆,并利用过往有效提示引导后续优化方向。该过程显著提升了提示优化的收敛效率与整体性能。

具体而言,HRPO采用一种迭代式优化范式,由四个核心模块构成:历史记忆构建、历史对比式自我反思、提示生成与提示选择。首先,历史记忆构建模块对当前迭代中的任务提示进行评估,并记录其偏见得分,从而形成用于后续优化的对比历史链。随后,历史对比信息引导的自我反思模块指导MLLM在综合分析偏见示例与历史对比链的基础上,识别当前提示的局限性,并生成具有针对性的改进建议。接着,提示生成模块利用MLLM的推理与生成能力,根据反思结果构造改进后的提示。最后,提示选择模块依据预定义的策略对候选提示进行筛选与更新,从而为下一轮迭代提供更优的提示初始化。
实验设计
在实验部分,我们将通过探究以下问题来展示HRPO的实际表现:
RQ1. HRPO在偏见缓解方面的效果如何?
RQ2. HRPO在可解释性方面表现如何?
RQ3. 各个模块的贡献如何?
RQ4. 迭代训练对HRPO有何影响?
RQ5. HRPO的泛化能力如何?
实验结果
RQ1:去偏性能分析。我们在三项任务上,将HRPO与六种基线方法在八个开源MLLM和两个闭源MLLM上进行去偏效果的对比。结果表明,HRPO在不同架构与规模的MLLM、不同任务及偏见类型上均展现出强健且稳定的去偏能力。


RQ2:可解释性分析。我们展示了HRPO去偏训练过程的一个示例。通过历史对比信息引导自我反思机制,当前提示在针对性改进建议的引导下得到优化,生成新的候选提示,并将偏差分数从3.03显著降低至0.96,表明HRPO的去偏过程具有良好的透明性,且生成的提示具备较强的可解释性。

RQ3:消融分析。为分析HRPO各模块的贡献,我们开展了消融实验,对三种变体进行比较:移除偏见示例版本、移除历史信息版本和移除自我反思版本,并将HRPO分别结合三种提示选择算法(UCB、SH和SR)进行实例化。实验结果表明,不同选择算法对整体性能影响较小,而移除核心模块会在不同程度上导致性能下降,验证了各模块设计的必要性,进一步证明了所提出HRPO框架的有效性。

RQ4:去偏效率分析。我们报告了HRPO在不同迭代次数下的性能表现,并与移除HCSR机制的版本进行对比。实验验证了迭代训练不会削弱去偏效率,而HCSR机制能够进一步提升训练过程的稳定性与收敛速度。

RQ5:可泛化性分析。我们从任务、偏见类型和偏见维度三个方面评估了HRPO的泛化能力。在跨任务方面,验证了在某一任务上学习得到的去偏提示能够迁移至其他任务。在跨偏见类型方面,验证了针对某一偏见类别优化得到的提示在其他偏见类型上同样具有良好的泛化效果。在跨偏见维度方面,验证了所学习的提示能够在单一偏见与交叉偏见之间有效迁移,从而支持跨维度的灵活去偏。



ACL是自然语言处理、计算语言学与人工智能领域的顶级国际会议,也是中国计算机学会(CCF)推荐的A类人工智能国际顶级会议,旨在探讨大语言模型和智能体、文本挖掘、对话系统等方向的最新研究成果、技术创新及系统应用。本届会议共收到投稿12148篇,主会录用率为19%,Findings录用率为18%,体现了严格的审稿标准与高水平的学术竞争。