博弈论中的囚徒问题

Dustin

浏览: 310130 次
性别:
来自: 广州/成都

最近访客更多访客>>

jybzjf

seven7eight8

雪山飞狐

red_xie

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

algorithm

生活

    这段时间在学习P2P系统中激励机制的实现，看到了博弈论中著名的囚徒困境问题(prisoners' delimma)，十分有意思，特摘录至此。
    “囚徒困境”最早是由美国普林斯顿大学数学家曾克1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判10年；如果都不坦白则因证据不足各判1年。在这里，博弈者就是两个嫌疑犯，他们每个人都有两个选择，即坦白和不坦白。
       最终结果是A和B均选择了坦白。这是因为，假定A选择坦白的话，B最好是选择坦白，因为B坦白判8年而抵赖却要判10年；假定A选择抵赖的话，B最好还是选择坦白，因为B坦白不被判刑而抵赖却要被判刑1年。即是说，不管A坦白或抵赖，B的最佳选择都是坦白。反过来也一样，不管B是坦白还是抵赖，A的最佳选择也是坦白。结果，两个人都选择了坦白，各被判刑8年。在(坦白、坦白)这个组合中，A和B都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合叫做纳什均衡。
       囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

        P2P系统引入激励机制(incentive mechanism)是为了防止公用品悲剧(tragedy of the commons)的发生。 tragedy of the commons 这个经济学概念是 Garrett Hardin 于 1968年提出来的，他在文章中写到:
     Therein is the tragedy. Each man is locked into a system that compels him to increase his herd without limit - in a world that is limited. Ruin is the destination toward which all men rush, each pursuing his own best interest in a society that believes in the freedom of the commons. Freedom in a commons brings ruin to all.
       意思就是说如果一个系统允许成员只关注自身利益，而无节制地滥用有限的公共资源，最终会导致公共资源的耗尽。这种现象在P2P网络中经常出现，如在文件共享网络中，BitTorrent，eMule等，我们就必须避免用户只下载而不上传数据(free riding)，最终导致系统效率低下。

分享到：