Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions
发表于|更新于|Papers
|浏览量:
- 构建一个有关隐形偏见的数据集
- 提出两种适用于隐形偏见的去偏方法
相关推荐

2025-07-11
A Multi-Agent Probabilistic Inference Framework Inspired by Kairanban-Style CoT System with IdoBata Conversation for Debiasing
收录于 arxiv “受启于日本看板文化和井户端对话的多智能体概率推理框架,用于去偏见” 数据集:斯坦福情感树库(SST5)、推文评估(Tweet Eval)和金融短语库。 LLM:13B模型 METHOD Kairanban式链式推理(KCS):模拟日本社区公告板的顺序传阅机制,智能体依次对前序推理结果进行修正和补充,形成渐进式共识。 Idobata对话(IBC):引入类似邻里闲聊的非正式对话环节,鼓励少数观点和隐含语义的表达,打破形式化推理的局限性。 KCS 设代理由 i=0,…,N 索引,其中N是代理的总数。文档$D_0={R_0,S_0,P_0}$包含结果 R0 和一个假设 S0。在这里,S0 是一个保持提示结构作为“初始假设”的地方,并且故意固定以便不影响实际的推理过程。同样,P0 中的所有概率都设置为零作为占位符。 从步骤 i≥1 开始,每个代理人 A i收到前一个代理人输出的文档 Di-1,并通过获取其自身的分析结果 Ri、逻辑推理 Si和概率分布 Pi来更新它,按照以下表达式: $$ (R _i,S _i,P...

2025-07-10
Mitigating Social Bias in Large Language Models: A Multi-Objective Approach Within a Multi-Agent Framework
收录于 AAAI2025 开源代码 数据集:Bias Benchmark for QA (BBQ)和StereoSet 模型:GPT-3.5-Turbo-0125和Llama-3-8B-Instruct Motivation 依赖白盒 LLMs 的技术(如数据增强、参数调优、解码策略等),虽有效但不适用于许多闭源 LLMs。 使用自然语言指令引导 LLMs 符合伦理,缺乏可解释性和透明度,且在解决偏见的范围上有局限,还常导致性能显著下降。 链式思维(CoT)方法虽能增强透明度和偏见处理范围,但可能无意中放大偏见;融入人类价值观或指令的方法也存在性能权衡问题。 METHOD MOMA...
