共识博弈：让模型学会“求同存异”

关键词： 一致性、博弈论、生成器、判别器、均衡排序

关于什么： MIT 的研究人员提出了一种名为 " 共识博弈 " 的机制，其基本原理是将 LLM 的生成器和判别器视为两个博弈玩家，通过对抗训练的方式，让它们在生成和评估答案的过程中不断学习和调整，最终达成一致。

共识博弈的训练过程：

(Left) Overview of the approach. (Right) Structure of the CONSENSUS GAME

通过这种机制，生成器和判别器会逐渐了解对方的策略，并调整自己的行为以最大化自身的利益。最终，模型会达到一种纳什均衡状态，即任何一方都无法通过单方面改变策略来获得更好的结果，此时模型的输出结果也会更加一致。

为何重要： 这是一次博弈论与 LLM 的一次交叉，尝试在 generator 和 discriminator 之间达到 Nash 均衡。

主要参考文献： A. P. Jacob, Y. Shen, G. Farina, and J. Andreas, “The consensus game: language model generation via equilibrium search,” 2024.

文章信息

论文题目:: The consensus game: language model generation via equilibrium search
时间出处:: ICLR 2024
单位组别:: MIT
论文链接:: https://openreview.net/forum?id=n9xeGcI4Yg
Github::
相关文章:: 模型博弈：通向更智能、更可靠AI的新路径博弈论让 AI 更加正确、高效，LLM 与自己竞争
文章笔记::
Zotero 链接:: The consensus game: language model generation via equilibrium search
Zotero 笔记::
Excalidraw::