找回密码
 注册
搜索
查看: 145|回复: 0

媒体解析20万元猜拳策略研究重要意义:是博弈论的一项人性研究

[复制链接]
发表于 2014-5-9 07:28 AM | 显示全部楼层 |阅读模式


媒体解析20万元猜拳策略研究重要意义:是博弈论的一项人性研究

来源:科技日报等
2014-05-09 11:38:05

一项以“石头剪刀布”游戏作为研究模型的中国科研成果4月21日发表在电子预印本文献库(arXiv.org)中。紧接着,美国《麻省理工科技评论》(MIT Technology Review)、美国广播公司(ABC)、英国广播公司(BBC)等媒体对此项研究作了报道。这项经费20万元的跨学科项目原名“可控实验社会博弈系统中一些非平衡统计物理问题”,研究报告达21页。然而,成果在国内却惹得骂声一片,甚至有网友批评科学家“闲得蛋疼”。

在中科院院士欧阳钟灿看来,网络上对于“石头剪刀布”研究的激烈反对,体现出社会对科学研究的不理解。“石头剪刀布”论文的第三作者、中科院理论物理所研究员周海军则表示:“公众不理解我们的工作其实也是对的,他们的批评说明他们是关心科学的,那么科学家就要尽可能用公众能听得懂的语言去表达。”

q4.jpg

在英国伦敦的科学博物馆,一名工作人员与一个名为BERTI的机器人在玩“剪刀、石头、布”的游戏。

石头 剪刀 布! 一项热闹的科学研究

纽约时报曾做了一个小猜拳机器人跟你玩,计算机分成两个难度模式:初学者(Novice)只会根据你的出拳习惯来猜你下一个会出什么,而高难度(Veteran)等级则会从收集了超过二十万场剪刀、石头、布的数据库中,猜你的下一步会出什么。(下图)

q5.jpg

纽约时报曾做了一个小猜拳机器人跟你玩


日本东京大学奥石川实验室研制的一款智能机器人,它是一只机械手,能够与人类玩“石头剪刀布”游戏,并且实现全胜战绩。(下图)

q6.jpg

日本东京大学奥石川实验室研制的一款智能机器人


从根本上讲,这款机器人是一个欺骗者,拥有超高速视觉系统能洞察对手的手指动作,仅用1毫秒时间分析对手,之后选择能够战胜对手的手势。

在科学论文里,“石头—剪刀—布”并非生僻的关键字。真正涉及“石头—剪刀—布”游戏的研究横跨各种领域。从心理学到生理学再到数学,得出了很多有趣的发现。

几天前,浙江大学、浙江工商大学和中科院理论物理研究所的研究者在预印本网站上发表的一份研究报告,被国内媒体广为转载。科学家们通过实验发现了“石头—剪刀—布”的一个制胜策略,引起了网上的浓厚兴趣。
小小儿戏也有人研究,很多人感到奇怪。其实,“石头—剪刀—布”在全世界都有研究者,也给一些科学家带来了灵感。

猜拳实验到底想研究什么

浙江大学、浙江工商大学和中科院理论物理研究所这项经费20万元的跨学科项目叫做“可控实验社会博弈系统中一些非平衡统计物理问题”。21页的研究报告4月21日发表在电子预印本文献库(arXiv.org)。很快,美国的《麻省理工技术评论》、美国广播公司(ABC)、英国广播公司(BBC)等媒体对此作了报道。5月初,国内媒体也注意到了这项研究。

2010年12月起,三位学者开始做“石头剪刀布”的实验。360名大学生分成12组接受测试,让大学生们与电脑比拼300轮的“石头剪刀布”,并且知道自己的输赢多少。

研究者发现,在玩“石头剪刀布”时,赢家倾向于下一轮出同样的拳、输家倾向于改变。或者说“胜留输变”。认识到这个统计结果,想赢的人就可以针对上一次的胜负和出拳,预判出对手的倾向,增加自己赢的概率。
尽管文章作者因论文尚未正式发表,不接受媒体采访。但论文受到关注的“制胜策略”并非论文的主旨。这篇论文实际上是探讨“纳什均衡”在真实博弈中是否成立。所谓纳什均衡,就是大家为了多赢少输,出拳会倾向于三种可能各占1/3比例,但在真实实验中,开始出拳是均衡分布的,后来却有了偏向。或许,在大家都学习了“制胜秘籍”后,纳什均衡才能恢复吧。

石头剪刀布也有世界锦标赛

尽管大家感到新奇,但探讨石头剪刀布输赢的方法,也不单是中国人的兴趣。2007年,《新科学家》杂志刊登的一项研究表示,想要当上这个游戏的冠军,首先应该出剪刀。他们统计发现,在三种手势中,人们最喜欢出石头。这意味着对手有可能选择布,因为他们大多以为你第一招便会出石头。因此你的选择应该是剪刀。

而全球规模最大的“剪刀石头布”俱乐部,“WorldRPSSociety”,在网站上贴出了他们总结的胜法8条策略。第一条就是“新手会出石头”。

还有一条策略提到,上一回合的输家,接下来很可能会出自己上一招的克招。比如上一招出 “石头”输掉了,下一轮很可能会出“布”。这倒是跟中国的研究结论暗合。其他的策略都是心理战,包括跟对手透露自己下一轮要出的招数等等。
上述俱乐部每年在加拿大举办“世界剪刀石头布锦标赛”,冠军能拿到几千美金,还有电视台转播。俱乐部除了出书,还出过纪录片。论坛上的玩家们,在签名档里骄傲地列出自己的比赛成绩和冠军头衔。
出现在不同学科的关键词
在科学论文里,“石头—剪刀—布”并非生僻的关键字。生态学论文很喜欢使用这一组词,生物链上彼此制约的态势,是生态学者喜欢探讨的复杂情况。

真正涉及“石头—剪刀—布”游戏的研究,横跨各种领域。从心理学到生理学再到数学,得出了很多有趣的发现。

2011年英国伦敦大学学院一项研究表明,游戏者们会不知不觉模仿了对方的手部动作,使得平局增多。实验中,比起戴眼罩的情况,参赛者能够看见对手时,平局的概率会增大。因为参赛者似乎无意识地模仿其对手的细微手势。以前科学家无法分辨人类模仿动作是有意识的还是无意识的。剪刀石头布的实验表明,他们肯定是无意识的,因为参赛者想要赢,而不是平局。

还有利用这个游戏探讨大脑认知规律的。今年三月,欧洲科学家发表了一项心理实验研究。实验者要跟电脑对抗石头剪刀布,电脑会改变策略,调整偏重;实验者为了多赢,就得及时跟着调整。总体上,科学家们得出了一个结论:电脑的策略越简单,实验者的调整也越有效(此结论稍显废话,但毕竟由实验证明了)。

韩国曾有一项研究,测试在石头剪刀布比拼中,精神分裂症患者是否能像一般人那样,为了不被捕捉到规律而随机化出拳。

而美国罗切斯特大学2005年发表的一项研究,让猴子跟电脑玩剪刀石头布,研究它们如何学习和做出决定。

2006年,日本通过检测人的脑电波图,让电脑在7秒内判断出人类出哪一种拳,准确度达到85%。

而在数学和博弈论方面,剪刀石头布也是常被讨论的一种模型。还有人专门写了一本书——《石头剪刀布:每日生活中的博弈论》。还有人把这种游戏的策略空间与混沌概念联系到一起。

不久前,大连科技大学的数学家们还发表了一篇《石头—剪刀—布—蜥蜴—斯波克游戏中的黄金分割点原则》,探讨了游戏中各种可能策略之间的匀称比例。

日本人格外青睐的研究对象

上述的“蜥蜴和斯波克”游戏,是猜拳的一种进阶版,加入了更多的角色和胜负关系。实际上,猜拳游戏可以增加无限多的角色,只要你比划得出,记得住。有人设计了一种15种手势的猜拳游戏,包括“水、火、狼”等等,每种角色都有7个天敌和7个手下败将。

这么多猜拳变种,哪一种更好玩呢?日本有数学家发表论文,探讨了猜拳的策略多变性,并且提出一套数学式子,符合它的猜拳规则,策略是最多变也最有趣的。

对剪刀石头布的研究许多来自日本学者。他们对于探讨这项游戏十分有兴趣。东京大学去年还发明了一种猜拳机器人“Janken Robot”。它用高速摄像头,在1毫秒时间内分析人手形状,判断即将做出是何种手势,然后用机械手做出应对,反应时间只要百万分之一秒。这个机器人百战百胜,人类跟它对战没有赢得可能性,实际上它是一个后出手的作弊者。

日本人研究猜拳的热情不难理解。名为“jenken”的石头剪刀布游戏,实际上是他们的国民娱乐。日本的电视综艺节目上,明星们精神饱满,煞有介事地猜拳,比拼胜负。走红的流行乐合唱团,举办全国直播的猜拳大会,决定谁能成为演唱下一首歌曲的主将。日本人还发明了高级的猜拳娱乐——野球拳(棒球拳),就是合着民族乐器三味线和太鼓的节奏,一边跳舞,一边出拳。

日本有猜拳决定的文化。孩子们有了分歧,往往用猜拳决定;还用猜拳选举班长;用猜拳决定优先权。日本的“jenken”相当于欧洲人的丢硬币。2005年,日本收藏家桥山高吉想要拍卖几幅名画,克里斯蒂和苏富比两大拍卖行都想获得拍卖权。高吉决定让这两家拍卖行用“剪刀石头布”定胜负。克里斯蒂拍卖行最终以“剪刀”获胜(他们一位主管的小孩儿出的主意,她说:“因为每个人都以为你会出石头。”)

既然猜拳在日本人生活中如此关键,研究它当然就不是一件奇怪的事。

有研究表明,现代的猜拳游戏是从日本流传到全世界的。还有人提出,日本的“Jenken”是从中国引入。有趣的是,在中国山东等地,小孩子玩的猜拳游戏,发音跟日语中的“jen-ken-po”是一样的。猜拳的源流和演变是如何的呢?这是一个还没人研究过的历史语言学题目。

观点

共享科学之有趣,应鼓励人人发言


“剪刀石头布”的研究一出,引起了网上很多反应。几乎所有媒体的评论,都在支持这项研究,抨击那些认为“该研究白花经费”的网民。有评论者不客气地说:“你觉得可笑,恰恰说明你自己可笑。”

我的感觉是:其实在舆论广场上,可笑与否不重要,大家都有权亮出自己的意见。不论科学家还是普通人。不论支持还是反对,这条新闻的制造者,转发者,评论者,大家都是在享受一个少见的研究主题带来的遐想和热闹。只不过表达方式不同罢了。那些说“闲得蛋疼”的网友,我相信并非真心跟这项研究过不去,只是用一种方式调侃和吸引关注。

科学能不能调侃?能不能反对?能不能质疑说它“白花钱”?我觉得可以,而且参加讨论不应该有门槛。一个文盲也有权反对科学研究,只要他是纳税人,是科学经费的来源。他有发表意见的自由嘛。即使说“我就是看不惯,觉得没意义”,也未尝不可。

论文作者之一、中科院理论物理研究所研究员周海军在一次学术会议上的发言:“我觉得很好,公众不理解我们的工作其实也是对的,他们的批评说明他们是关心科学的,那么科学家就要尽可能用公众能听得懂的语言去表达。”

科学家们板起面孔,穿上白大褂,要求公众无条件支持神圣的探索,过去曾很有效,但也是一种懒人办法。今后为了吸引经费,科学家们必然要将自己的研究表述得更明白,更有趣,更有利于公众支持。

对那些认定了实用价值,一点都不重视趣味性的反对者,科学家们若没有相应的沟通方式,而是指斥其为“无知、庸俗”,寄望于后者自惭形秽地退场,那就不会有好效果。

要把“剪刀石头布”的实用意义讲清楚,其实也不难:它是博弈论方面的一项研究,探讨人们是否真有数学家所认为的充分理性,帮助我们深入地理解人性。我相信这一课题,即使不那么有趣,也不会被注重效益的资助人给否决掉的——雇了360人做有奖测试,20万元也不多嘛。

直击:对与错

5月5日下午,中科院理论物理所战略委员会正在召开2014年度会议。会议的报告人之一,正是“石头剪刀布”论文的第三作者、中科院理论物理所研究员周海军。

而由于“石头剪刀布”的研究饱受争议,报告前周海军决定,将原定的报告内容压缩,只谈“石头剪刀布”。

“因为论文还没有正式发表,所以我下面讲的一切,都可能是错的。”周海军直言。

当他介绍起“石头剪刀布”的游戏规则和实证研究过程时,坐席间不时传来轻微的笑声。而当他介绍到数据分析的方法和思路时,场内的声音消失了。

“这是一项科学研究,是对纳什均衡理论的挑战。”中国科学院院士张焕乔在接受《中国科学报》采访时评价。

“这应该不是三岁小孩能做的。”面对布满屏幕的公式,周海军感慨,“我从来没列出过如此长的公式。”

不过,张焕乔认为研究还存在不足之处,比如,研究的抽样数据还有局限性,关于偏离后的分布究竟如何,需要进一步将抽样样本扩大,而且要考虑文化、年龄等因素。

对于会场上包括十几位院士在内的“大咖”们的质疑,周海军直白地回答:“这些问题值得我们继续做实验。”

回顾:始与终

从2010年12月起,周海军就和该项目负责人、浙江大学实验社会科学实验室研究员王志坚,以及浙江工商大学教授许彬,开始了基于“石头剪刀布”模型的实证研究。

他们征集了360名大学生,分成12组,让大学生们对着电脑做300轮“石头剪刀布”游戏,每个人都知道自己每轮的输赢和总的输赢情况。实证研究一直持续到今年3月。

从媒体报道来看,最受关注的研究成果是“怎么在‘石头剪刀布’中能赢”。论文也将制胜策略总结为“胜留输变”,即人们在玩“石头剪刀布”时,赢家习惯于保持现状、输家倾向于作出改变。

不过,《中国科学报》记者发现,研究探讨的问题远不止这些。

“如果按照纳什均衡理论,整个系统中,石头、剪刀、布出现的行为次数应该是完全平等的,各占1/3。”周海军说。

所谓纳什均衡理论,是1950年由美国数学家约翰·纳什提出的非合作博弈模型——如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

研究的初始数据结果显示,石头、剪刀、布的次数基本相同,符合纳什均衡理论。

但随着研究人员的进一步分析,他们发现,其实每经过35轮游戏,在从“石头”到“剪刀”到“布”的顺序上,整体的行为选择会有弱的定向偏转现象。“这是纳什理论无法解释的。”周海军说。

探讨:深与俗

“简单但有趣。”欧阳钟灿对该研究评价称,这是一项简单的博弈理论研究,但又不是简单地得出纳什均衡结论,往后还有很多值得研究的东西。

其实,在科学界,有趣的研究并不少。其中,最著名的是2009年美国埃默里大学的弗兰斯·德瓦尔和萨拉·布罗斯南关于“猴子与公平”的研究。科研人员在实验开始给每一对猴子同样的奖赏——黄瓜,后来他们给每对中的一只吃甜葡萄,本来很高兴接受黄瓜的猴子看到同伴得到葡萄时便不再接受黄瓜,并用黄瓜袭击饲养员。由此,他们得出结论:要求公平、公正的意识不是人类所特有的,其他灵长目动物也有。

“‘猴子与公平’的研究同样简单有趣,而且意义重大。”欧阳钟灿说。

对于这场“石头剪刀布”的舆论风波,欧阳钟灿表示,这体现出国内公众的科学素养还不够,对网络言论依旧缺少判断。

不过,面对社会的质疑,周海军选择了自省:“公众不理解我们的工作其实也是对的,他们的批评说明他们是关心科学的,那么科学家就要尽可能用公众能听得懂的语言去表达。”

果壳网:“石头剪刀布制胜策略”的研究,是浪费钱吗?

一篇来自浙江大学、浙江工商大学和中科院理论物理研究所的论文公布在了预印本网站上。根据媒体的宣传,研究者“找到了石头剪刀布的制胜策略”。

自然而然地,很多网友的反应是:“这还需要你研究?”

q7.jpg

网友评论截图。图片来源:凤凰网


但是只需扫一眼就会发现,研究者不幸又被标题党坑了。他们寻找的不是怎样玩赢剪子包袱锤,而是通过人们在剪子包袱锤里的行为来判断哪一种理论更能预测人类——是传统博弈论的纳什均衡,还是演化博弈论。

因此,我打算从我熟悉的演化博弈论角度来越俎代庖,尝试解读这项研究为什么不是在浪费钱。

为了帮助理解它,我会讲四个故事。这四个故事从易到难,如果你已经对这个领域很熟悉了,可以跳过前面的几个故事。

第一个故事:囚徒困境

一个有钱人被发现死于家中。警方抓获了两个犯罪嫌疑人并查获了赃物,但两人辩称说他们只是小偷,进屋时那个人已经死了。没有更多证据,调查陷入僵局。

于是警方把两人分开,分别对他们说:

如果你俩都不认罪,我只能判你盗窃,一年了事;如果​你招了他没招,你算作立功,不用坐牢,而他得十五年。如果如果他招了你没招,那反过来。但如果他和你都认了,谋杀罪每人十年。

嫌疑人X心想:如果Y不招,那么我也不招的话会判一年,我招了无罪释放。招了更划算。

而如果Y招了,那我不招的话十五年,招了只有十年。还是招了更划算。

显然我应该招啊。

而嫌疑人Y当然也是这么想的。结果,两人都判了十年。任何一人改策略都只会让自己处境更糟,这便是一个纳什均衡。

可是,如果从整体上看,最好的结果显然是两人都不招,各判一年。双方都是理性考虑谋求自己的最大利益,结果却是两人都遭遇了坏场景;无论是整体最好场景(各判一年)还是个人最好场景(直接释放)都不可能发生。这就是为何囚徒困境是个“困境”。每个人都很精明,最后怎么弄了这么个烂摊子?

q8.jpg

囚徒困境示意图(或者,“收益矩阵”)。图片来源:Encyclopaedia Britannica


按照囚徒困境术语,不招的行为算作“合作”(和你的狱友合作,不是和警方合作),而招认的行为算作“背叛”。双方都合作最好,双方都背叛则两败俱伤。按照这个故事,合作根本不可能出现啊。

现实中类似囚徒困境的场景常常出现。但是,更多的结局似乎是合作,而不是背叛。为什么?

可能的原因是,困境不止这一次。

第二个故事:重复囚徒博弈

如果嫌疑人X和Y是陌生人,那么两人的下场都是十年。但是他们也许是两肋插刀的好哥们,或者有血亲,或者属于同一个组织——总而言之,用博弈论的术语,他们以前也许打过交道,将来还很可能继续打交道。这时,“合作”就不是什么难以想象的事情了吧。

因此,一位名叫罗伯特·阿克斯罗德的政治学家在上世纪80年代初做了一个名垂青史的实验。他在计算机里摆了一场锦标赛,有很多名虚拟的参赛选手,双方捉对厮杀——哦不,是捉对进行重复囚徒博弈。按照博弈的结果记分,你背叛他合作,则你得5分他得0分,双方都合作各得3分,双方都背叛各得1分。

然后,他向全世界征集策略,每一个得到的策略变成一个参赛选手。提交的策略共有14个,来自经济学、社会学、政治学和数学等等领域,再加上一个“完全随机”的对照策略,共15“人”进行比赛。这里面有些策略极其复杂极其精妙,比如有一个策略用马尔科夫过程为对方的行为建立模型,然后用贝叶斯推断最好的选择。

但是,最后得分最高的竟然是所有提交策略里最简单的一个——“一报还一报”(TFT, tit for tat)。这个策略一共只有两条规则:(1)第一步先合作,(2)从第二步开始,对方上一轮出的是什么,我就出什么。提交这个策略的是维也纳的安纳托·拉伯波特,他写这个策略只用了4行BASIC代码。

阿克斯罗德发表了锦标赛的分析结果,并邀请大家吸取经验教训提交新一轮策略——这次他获得了62个策略,不但有上面提到的领域,还包括了演化生物学、物理学和计算科学等新学科。只有一个人厚颜无耻地原样提交了上次的卫冕冠军,那就是拉伯波特本人。你猜对了。他又一次获得了胜利。

TFT这个“报仇者”成功的秘诀并不复杂。阿克斯罗德说,它有三个要素:它第一轮总是合作,先表示善意;它会惩罚背叛者;如果对方改过自新,它也不会咬住不放。

但是甘地说过:“以眼还眼,举世皆盲。”现实中总会因为各种原因结下仇怨,但我们也没有从此冤冤相报何时了。这又是为什么?

可能是因为,现实本来也和阿克斯罗德的模型有些重大差别。

第三个故事:有突变和自然选择的重复囚徒博弈

(1)自然发现了宽恕

阿克斯罗德锦标赛有两个重大缺陷。

其一,双方的行为都是完美的,没有误会,没有失误,哪怕不知道对方想什么,至少知道对方做了什么。但现实里多少悲剧源于双方一开始的误会啊!这个重要因素显然不该忽略。

其二,每一个策略的“环境”都是武断决定的。一个策略能否成功,和它身边别的策略如何有很大的关系。假如群体里全都是永远背叛者,那么报仇者完全占不到任何便宜。而阿克斯罗德锦标赛里的参赛选手都是人为提交的,这可不能说是有代表性的样本。

因此,在阿克斯罗德实验的基础上,马丁·诺瓦克制定了一轮新的锦标赛:引入了自然选择。

他不再邀请人类专家设计策略,而是规定了一个大小合适的策略空间,允许策略在里面进行“繁殖”和“突变”。每一轮得分高的策略后代多,得分低的没有后代甚至自己都消失掉,但每个后代的策略也都和自己有十分微小的差异。此外,每次行为都有一定的“误会”概率——本来我应该合作,但实际出手的却是背叛。

一开始,故事的发展和上面一样。起始的一团糟很快被谁都不信任、每一局都背叛的“背叛者”横扫,但其中很快又出现了一小团一报还一报的“报仇者”。然后报仇者有很大的概率靠自己内部合作,反过来推倒背叛者。
但是现在故事不会到此结束了。因为有误会。

报仇者很擅长对付坏人。但是如果对方不是坏人,而是犯了错误的好人呢?报仇者太记仇,不会放过这一点,如果对方也是报仇者,那相互合作立刻会变成相互背叛,就要陷入冤冤相报何时了的永远循环之中了。

这时,突变出现了“宽恕者”。它的策略学名叫“慷慨的一报还一报”(GTFT)。它的特点是,即使对方出了背叛,下一轮也有一定的概率选择合作,这样就可以挽救陷入无穷背叛的可能。在论文里,诺瓦克骄傲地宣布:“自然选择发现了宽恕”。

显然,宽恕存在的前提是周围有足够多的好人(报仇者或者其他宽恕者)。如果周围都是坏蛋(背叛者),你的宽恕只会被别人利用。

可好人太多了,又会有另一个问题。

(2)历史的循环

如果周围都是好人,大家其乐融融,那么最好别坏了人家心情,干脆做个滥好人得了!不管怎么样我都永远合作。这比报仇者和宽恕者对误会的忍受能力更强,宽恕者还有一定概率不原谅,滥好人则是永远原谅,立刻拉回合作的“正轨”,所以它的得分更高。这整个群体会逐渐变成都是滥好人——

但是,坏人从未远去。群体里永远会因为突变而出现新的坏人。而一群只知道合作的滥好人,面对坏蛋那就是白花花的肥肉啊。很快无比成功的坏人会占据群体的大部分。

于是,一切重新开始。

这个坏人->报仇者->宽恕者->滥好人->回到坏人的循环是极其普遍的,而且它的普遍不止存在于博弈论模型里——好人合作打败了坏人,多年以后好人放松了警惕、坏人于是东山再起,这个叙事模型在各种故事传说里都十分普遍。至于这能否作为现实人类历史上战争和平循环的抽象表述,那就见仁见智了。

(3)打破轮回?

那么,我们注定只能面对这个无尽循环了吗?并非如此。诺瓦克的初代模型里,每个策略只能考虑上一轮对方出了什么。如果它不但考虑了对方,还考虑了自己呢?如果它关注的不是对方的策略,而是策略带来的结果呢?

在改进之后的模型里,意外出现了一个新的稳定策略:“输则改之,赢则加勉”(WSLS, win-stay, lose-shift)。

这策略很简单。如果我上一轮占了便宜(双方都合作,或者他合作了我背叛),那这一轮我继续上轮策略。如果我上一轮吃了亏(双方都背叛,或者我合作了他背叛),那这一轮我就换一种策略。换言之,这是一种“反思”型。

当两个反思者相遇,它们大部分时间都合作。万一遭遇了噪音,那么下一轮双方都背叛;再下一轮双方又合作了。纠错延迟只有1回合。这一点比宽恕者更强,只比滥好人弱一点点。

但反思者不怕滥好人。和滥好人打交道,开始双方都合作,但是早晚要出现误会导致反思者背叛,接下来……反思者发现滥好人不懂得报复。于是以后每一轮都是反思者背叛、滥好人合作,没有分辨力的后者遭到惨无人道的剥削而退出游戏。这样一个反思者组成的社会不会随着时间推移而“放松警惕”变成滥好人,当然也就不会遭受坏蛋的后续必然入侵。

等一下,这“反思”策略——不就是报道里说的,石头剪刀布的制胜策略?

没错,石头剪刀布不是囚徒困境。但是,故事还没完。

第四个故事:关于人类

诺瓦克的本行可以算作是演化生物学家。他们关心的,是在一个自然选择的框架下,合作何以可能。这个框架认为,虽然动物的智力各不相同,但自然选择会将策略植入它们的大脑中。好的策略自然能流传,哪怕动物本身不理解这个策略为何好、甚至不知道自己正在执行一个策略。自然选择只在乎结果。

而人和人的心智,也是自然选择的产物。如果他们的研究能部分解释动物界的博弈策略,恐怕也可以部分应用到人身上。

演化心理学有个很重要的假设,就是人的思维方式不是“全功能通用计算”,不是一个程序处理所有环境。人脑子是有“应用模块”的。当你需要做紧急决策、或者做不太重要的决策时,你往往会调用你“第一反应”的那个应用模块,而不是冷静分析局势、为具体情境开发一个最佳方案——你没这时间精力,很多时候也不值得。“今人乍见孺子将入于井,皆有怵惕恻隐之心。”你需要计算一下这孩子和我是什么关系、我多管闲事会不会耽误我自己的工作、孩子的父母会不会报答我吗?不需要。你调用的感情函数已经帮你处理完了,要做的只是喊出声或者跑过去。

如果一个人遇到任何事情都是靠第一反应,我们可能会说他是“感情用事”。但是没有人能完全抛弃感情。的确,事后看来你这样做出的常常不是最好决策——但是构想一个最好决策也是有代价的啊!这显然不是经济学上那种买个苹果也要花十分钟画​效用曲线的“理性人”,但你似乎也不能说这就不“理性”。

而既紧急又不重要的决策,还有比剪子包袱锤更好的例子吗?

所以,从演化博弈论角度来看的话,这个研究并不是真的为了寻找怎么玩剪子包袱锤的办法,而是实验证明了,在我们面对重复博弈时,我们的脑子的内置应用果然像诺瓦克他们模型做出来的那样,有“反思”的倾向;哪怕这博弈只是剪子包袱锤而不涉及囚徒困境。我们没有像一个理性经济人那样计算出剪子包袱锤的纳什均衡是等概率随机出三种手势之一,而是受到我们“本能”的影响——演化留给我们的那个应用模块,这模块也许就是在重复囚徒困境的环境下诞生的。

当然,现在我们既然知道了人的大脑有此倾向,我们就可以针对它设计一套克制策略(而理性人的纳什均衡就不怕任何克制策略)。我们能意识到自己的“本能”在特定场合下的缺陷,并主动地克服它,这是我们比大部分别的动物厉害的地方。

这很牛逼好吗。这是触及人类思维本质的东西好吗。虽然也许不如阿克斯罗德和诺瓦克那么牛逼但也非常厉害了好吗。

当然,真正的原论文还要更复杂,涉及的层面也更多,而对于囚徒困境的研究也远不止这里讨论的那些。但是我想,这已经足以证明这项研究的意义。不要被标题党欺骗了,如果标题能说明一切,还需要正文干什么呢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2024-11-12 03:31 PM , Processed in 0.031121 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表