鲍勇剑：互信缺失博弈中的合作策略|囚徒|博弈论|背叛

鲍勇剑：互信缺失博弈中的合作策略

2021-04-03 22:20:08　来源: 托比网举报

分享至

文章来源 | 澎湃新闻

文章作者 | 鲍勇剑

上周，紧急邀约我分析国际贸易危机的朋友倍增。隐去众所周知的背景情况，问题大约集中在下面几个方面：

1）对外方的言行，应该强势回应还是悄然无息？
2）放眼未来，如果严重缺乏互信，怎样维持国际贸易合作？
3）贸易的本质是互惠。互害也许是例外。斗争是否会很快结束？

我是国际贸易的门外汉。不过，仍然可以识别当前国际贸易呈现出的“囚徒困境”。对于如何走出“囚徒困境”，博弈论已经有超过30年的研究。许多时候，一个概括现象本质的经典理论有极高的实践价值。简而言之，即使身处严重缺乏互信的博弈中，如果策略得当，合作关系仍然是可能的。如果策略失当，双方陷入长久互害关系而不能自拔，它也是可能的。

第一次世界大战，敌对士兵之间的合作默契

第一次世界大战暴露政治决策者一系列误判。首先，英德为代表的对立联盟误判奥地利公爵菲迪南德（Franz Ferdinand）刺杀事件的象征意义。其次，双方以为象征性武力对峙可以在几个星期内结束。结果，第一次世界大战延续了4年，伤亡4200万人。

还有一个出乎决策者意料的现象，是敌我互动中的和平合作。在从法国一直延伸到比利时的500英里的壕沟坑道中，双方士兵演绎出军事战争历史上罕见的现象：除了间歇性的突袭，士兵可以在双方步枪射程内正常生活，而无需惧怕对方狙击手射杀。

历史学家阿什沃思（Tony Ashworth）十分好奇这一现象。通过阅读大量前线士兵的家书和日记，他以《壕沟战争1914-1918》（Trench War 1914-1918）一书记录了战争中敌对双方特殊的合作行为。

自1914年8月始，战争血腥残酷，双方介入一场你死我活的零和游戏。因为偶然的因素，在某些阵地，双方埋锅灶饭的时间点刚好差不多。战场出现奇特的宁静。偶然形成的默契，从休战吃饭延伸到起床出恭。上午8-9点钟，英德士兵保持互不侵犯的状态，让大家处理私人事务。后来，双方都不约而同地放弃对食品补给线的攻击，自己要吃饭，也让对方有饭吃。

相互克制的默契，从一个坑道蔓延到另外一个坑道。1914年圣诞节，醉醺醺的士兵甚至可以逛到对方壕沟而不担心被射杀。意外当然会出现，这毕竟是战争。当一方发动突袭时，另外一方马上予以对应的反击，一命抵一命。休战时，德国狙击手会特意瞄准英军壕沟上方的民宅，连续射击，直至打出一个漂亮的圆洞。双方士兵们用类似方式展现报复能力和意愿。一报还一报，我活也让你活，同时睚眦必报。

按照战争的逻辑，敌对双方形成典型的囚徒困境。相互背叛应该是常态。但是，壕沟战争中的士兵却表现出另外一面：突袭中背叛，休战时合作，自己求活路，也让对方有活路。坑道士兵之间的和平合作，当然引发指挥部的不满。指挥官总有方法继续战争。它是另外一个故事。但是，旷日持久的壕沟战争中，敌对士兵是怎样达成合作默契的？在后来的100年中，它一直是研究博弈论学者的热门话题。

超越囚徒困境

1950年，兰德公司（Rand Corp）开始研究美国和苏联之间冷战博弈。数学家福拉德和德雷舍（Merrill Flood and Melvin Dresher）推演出著名的“囚徒困境”（见下图）。在一个假想的犯人与犯人之间的博弈中，如果两人事先串通，都保持缄默，那么各被判1年。如果其中一位背叛，而另一位仍然拒绝招供，那么，背叛的犯人可以免刑，而抗供的犯人获刑5年。如果两位都背叛事先串供，那么各获刑3年。关押后，因为两位犯人无法沟通，理性的首选一般更倾向于背叛。在缺乏信息和可靠承诺前提下，它是个人利益最大化的优势选项。

“囚徒困境”影响了一代国际关系学者。苏美两个超级大国竞争过程中，背叛和对抗成为大国博弈的首选和优选。当艾利森（Graham Allison）谈论大国冲突的修昔底德陷阱（Thucydides’ trap）时，其背后的逻辑也是如此。

互信缺失就不可能合作吗？怎样才能颠倒囚徒困境下的选择？一战时，敌我双方士兵之间的自发合作只是昙花一现，还是可以长久维持？

带着上述问题，密歇根大学政治学家阿克赛尔罗德（Robert Axelrod）修改了囚徒困境的一个重要的，但被忽视的前提：假想敌对双方进入一个循环往复，一直持续下去的互动过程，什么样的选择（合作或背叛）会胜出？这个胜出的选择应该具有稳定性，应该符合选择者的长远利益。

为搞明白长期博弈背后的规律，阿克赛尔罗德设计了一个电脑游戏。游戏模仿囚徒困境，但不设立结束条件。换言之，游戏参加者不知道下一局是否为终局。1980年，阿克赛尔罗德向研究博弈论和相关社会科学的学者发出英雄帖，邀请他们自愿参与囚徒困境的游戏。

第一轮锦标赛参加者都是博弈论爱好者或专家。你来我往，博弈14轮，最后得分第一的是多伦多大学的一位教授。他使用的策略极其简洁：一报还一报（Tit for Tat），即你对我好，我回报以友善；你对我恶，我就报复反击；如此，循环往复不改变。

第二轮锦标赛有62轮博弈。来自5个国家的参加者都已经通晓上一轮博弈的结果，特别是获胜策略。参加者尝试15种不同的合作或背叛的策略组合，包括“下马威策略”(出场就连着背叛两局)，“诱骗策略”（开局合作，然后连续背叛），“强盗策略”（一直背叛，从不合作），“趁机占便宜策略”（合作一次，背叛两次，再道歉求饶）。令人惊讶的是，榜上排名前列的都是使用了“一报还一报”的策略。

阿克赛尔罗德的初始研究问题是：从自身利益出发，在没有权威干预的条件下，缺乏信任的博弈双方能否形成合作关系？如果能，它的规律是什么？规律是否有长期的稳定性？

两轮电脑模拟游戏显示：当竞争双方认为会在未来反复相遇时，他们有可能采纳“一报还一报”的策略。它最终导致双方稳定的合作关系。而这种关系最符合各自的长远利益。

为了求证电脑模拟游戏发现的规律，阿克赛尔罗德找到生物进化学家汉密尔顿（William Hamilton），请他从亿万年生物进化的角度解释或证伪“一报还一报”的合作规律。汉密尔顿解释，类似的互惠原则（Reciprocity）也频繁出现在生物进化过程中。例如，海鲈（Sea bass）有两个性器官，可公可母。如果海鲈有十次交配，受精和产卵过程的任务，往往是对半承担，大约5次承担母海鲈的任务，5次执行公海鲈的角色。

类似的互惠合作现象，在物种进化过程中普遍存在。简单结构的植物和动物没有自主的、有意识的选择。但是，它们有与外部环境的反应机制。长期进化过程中，互惠反应有利于物种生存。这个本能的策略通过基因保留下来，传给后代。汉密尔顿教授的“亲缘关系和利他合作”理论被认为是对达尔文“物竞天择”生物进化理论的一个重要补充。生物进化，既有竞争，又有合作。合作是物种演变的主旋律。

“一报还一报”是不是也可能让互害关系循环下去，成为无休止的宿怨？它完全是可能的。因此，博弈论学者特别倡导传播“一报还一报”的互惠合作规律，教育人们认识到它是符合自身利益的最优策略。

缺乏互信条件下的合作策略

成为赢家，我们绝不能打左脸，送右颊。但是，只有“以牙还牙，以眼还眼”，它也不符合我们自身利益和长期目标。实践中，阿克赛尔罗德的“一报还一报”的策略有10项应用原则。总结如下：

1.待人以直，针锋相对。你示好，我友善。你背弃，我反击。如此循环往复。
2.凸显相互依存的宿命，打消零和游戏的念头。躲了初一，逃不了十五。让对方理解，这不是一次性可以了断的博弈。
3.首现诚意，和善开局。博弈伊始，不出滥招，不动恶念。从做好人开始。
4.敢于反击，以牙还牙。回敬要及时，反击合比例。
5.宽宥只能一次，了断讨巧伎俩。最多原谅对手一次，而且是在有力的报复之后。
6.承诺不首先背叛，如果失误，真诚致歉。假如因为误判而选择背叛，立即解释并补偿。
7.不耍小聪明，不占小便宜。即使发现对方漏洞和疏忽，坚持第一条，待人以直。
8.成全对方，超越自己。零和游戏重点在削弱对手。非零和游戏重点是自我进步。
9.结盟，成为合作的少数。即使在普遍具有敌意的竞争环境中，少数结盟者之间的合作将改变充满敌意的环境，直至合作成为主导策略。
10.开宗明义宣示遵守“一报还一报”的策略。当双方认识到它是必要的优选后，建立合作的过程可以加速。

在目前的国际环境下，因为地缘政策因素，国际贸易变得更加复杂。怎样理解和管理复杂系统？系统学家阿什比（Ross Ashby）建议：遵守“必要的多样性” 原则（Ashby’s law of requisite variety）。概言之，系统越复杂，反应的方法也要多种多样，否则就难有效地以一报还一报。如果对方的招式不断更新变化，我方只有画符念咒这一招，那竞争的结果是堪忧的。

B2B行业资讯

中国产业互联网领域专业的垂直媒体与

行业服务平台

读者投稿|商务合作|项目咨询

电话|微信：17301302519

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.