CCDA研究 | 推动对非常规复杂战略博弈的研究——兼论如何推演俄乌冲突的战后谈判

在全球复杂的国际局势下,如何通过现代技术工具更好地理解和预测国家间的战略博弈?唐世平教授在其最新文章中,通过结合行为体建模(ABM)和机器学习,提出了应对非常规复杂战略博弈——例如俄乌冲突战后谈判——的新思路。

该文于2024年09月15日首发于澎湃新闻。
以下为文章全文。

                                    推动对非常规复杂战略博弈的研究

                               ——兼论如何推演俄乌冲突的战后谈判

              唐世平


  现实世界中的诸多场景,从古代的田忌赛马到现代的核威慑、越南战争及俄乌冲突,都可以认为是典型的博弈场景。自冯·诺伊曼和奥斯卡·摩根斯特恩共著的《博弈论与经济行为》奠定了博弈论的理论研究基础之后,博弈论作为一个重要的分析工具,在众多学科和领域中都得到了广泛的应用。

  不过,就连“玩”博弈模型的专业人士看来,目前绝大部分的博弈论模型都只是具有启发作用的“玩具”。这其中核心的原因是博弈论通常研究的都是高度简化了的“常规博弈”问题,而真实世界里的博弈情形却是非常复杂的。

  “常规博弈”场景是大家耳熟能详的,所描绘的是相对简单、规则明确的场景,通常包含2到3个行为体,在享有“共同知识”(common knowledge)的情景下进行博弈。从各种棋类游戏(象棋、围棋),到“囚徒困境”等等,都是规则确定的常规博弈。对于这类博弈问题,我们通常的做法是去求它们数学上的均衡解,从而帮助我们对这些博弈问题的理解。在均衡解下,每个行为体的行为都是最优策略,即任何一方都不可能通过单方面改变策略而获得更好的结果。

  但是,一旦博弈场景变得非常复杂,特别是博弈规则不太明确,许多“常规博弈”的求解就会十分复杂而没有均衡解或者有太多的均衡解,因而难以理解。              
  以田忌赛马的故事为例。如果田忌和齐威王各自有15匹马,可以任意组合,但不能重复使用马匹。比赛分为五轮,而且每一轮之后双方都可以根据上一轮的结果来调整策略,则该博弈的复杂度将呈指数级增长。这仅仅是一个稍显复杂的博弈问题,而且是有双方均接受的明确规则作为“共同知识”的博弈问题。

        何谓“非常规复杂战略博弈”?                                                    

  然而,国际政治中的大多数博弈场景远比传统博弈复杂得多。绝大部分时候,国家间的博弈通常是多行为体、多回合的复杂战略博弈,这些博弈不仅涉及多个行为体,行为和行为规则多样,行为交互作用规则多样(比如,不一定是你来我往),甚至由于行为体需要考虑多个方面的得失,因此权衡得失也非常困难。

  最为重要的是,这类博弈问题通常还缺乏“共同知识”。这其中最核心的是博弈的规则是不确定的,或者至少是不完整的。比如,任何棋类,都是规则非常明确而且双方必须遵守的。这些非常明确且双方必须遵守的规则就是这类博弈问题中的核心的“共同知识”,也是这类博弈得以进行的核心基础。

  相比之下,贸易谈判,朝鲜战争的停战谈判,越南战争的日内瓦谈判,以及俄乌谈判,均为多方多轮的博弈问题。参与各方均有“阴谋”与“阳谋”,而且手段可能是“灰色”的(尔虞我诈、盟友背后捅刀),甚至谈判参与方也会发生变化。各方通常都在试图“出奇制胜”,可以说毫无规则可言,导致博弈更具不确定性。显然,这些博弈场景和博弈论通常讨论的博弈情形和模型有天壤之别。

  这样的博弈问题几乎不可能有一个完整的数学刻画,因而也不可能有数学均衡解。我们将这类博弈称为“非常规复杂战略博弈”。而战争显然是最为复杂的非常规博弈问题。《孙子兵法》的核心思想“兵者,诡道也”恰是充分体现了非常规博弈的核心原则。

  特别需要指出的是,非常规博弈与受同一个行为体(或者指挥官)指挥的个体或者智能体(如无人机)之间的“协同”也是非常不同的。

  总之,传统博弈论是无法有效解决“非常规复杂战略博弈”问题的。面对“非常规复杂战略博弈”问题,我们亟需超越传统博弈论的框架,探索新的理论工具与分析方法。

           ABM+机器学习:
          非常规复杂博弈的解决方案                                            

  我们认为,要处理“非常规复杂战略博弈”问题,以基于行为体的建模(Agent-Based Modelling,ABM)系统为核心,再结合强化学习以及其他的机器学习技术,可能是唯一可行的解决方案。

  ABM擅长模拟多个行为体之间复杂的互动导致的涌现性结果,而强化学习则为ABM中的行为体提供了更加有效的自我学习的基础,因而有助于我们更好地理解和预测博弈的可能结果。

  事实上,ABM从一开始就受到了博弈论和演化思想的影响。冯·诺伊曼不仅是博弈论的奠基人之一,还发展了第一个ABM系统的雏形——“通用构造器”(Universal Constructor)或“元胞自动机”(Cellular Automata)。

  世界上第一个社会科学领域的ABM系统是1971年托马斯·谢林关于居住种族隔离的著名研究。而谢林本人因为对非合作博弈论的贡献,于2005年与罗伯特·奥曼一起获得诺贝尔经济学奖。基于一个简单的ABM模型,谢林发现,在一个有多个行为体(住户)的社区中,尽管各自的行为相对简单,且每个行为体都不是“种族主义者”,但种族隔离现象仍然会产生。而这样的涌现性结果已经是常规博弈论无法解决的问题。

  受此启发,我们认为可行的研究路径是:可以秉承某些常规博弈论的思想,为非常规复杂战略博弈进行建模,然后主要依赖ABM来探索其可能的结果,即通过多次(大于100次,甚至更多)模拟,基于不同的参数甚至方程系统,模拟不同行为、行为规则、互动规则的多种组合下的复杂博弈结果,来获得不同博弈结果及中间状态的概率分布,从而加深对博弈系统的理解。

  与绝大多数其他社会科学方法或技术相比,ABM具有极高的灵活性。在构建ABM时,研究者一般会对行为体、行为、行为规则、互动规则、系统环境等先做设定,而且这些设定通常都不是固定数值,而是某个区间。在经过多轮模拟之后,我们可以通过更改这些设定来创建数量巨大的相邻模型,然后基于验证(validation)和校准(calibration),ABM可以靠修改方程和参数调参来迅速筛选出更符合实际世界的模型。

  针对非常规复杂战略博弈的ABM建模思路大致如下。我们首先需要基于相应的历史或现实案例,从中抽象、提炼出行为体特征、环境特征和其他初始设定;其次结合专家知识,大致明确行为矩阵;然后是让系统在各种行为规则、互动规则的制约下不断运行,系统状态也会随之不断更新。通过多次模拟和不断验证和校准,最终获得可靠的不同博弈结果及中间状态的概率分布。有了这样的结果,我们便能倒推在特定博弈场景中,博弈各方的行为策略和特定的行为。

  构建了ABM基础系统之后,我们还可以纳入“部分可观测马尔可夫决策过程(POMDP)”来刻画行为体与环境(包括系统中其它所有的行为体)的交互关系,并用强化学习技术来评估行为体策略价值,拟合优化行为体决策偏好。

  部分可观测马尔可夫决策过程是一类复杂的决策模型,往往用于在不确定性情境中生成决策。其主要组成要素包括:环境状态、行为体的行为空间、 状态转移概率、行为奖励、观测空间、奖励的衰减系数等。强化学习是使行为体通过与环境的互动来学习最佳策略的方法。与其他机器学习技术不同,强化学习特别关注不确定和动态环境下的决策,所以特别适用于探索模拟博弈场景中的策略。

  强化学习的基本逻辑是:在每个时间点中,行为体接收到当前的状态St和奖励Rt。然后行为体从可做出的行为列表中,根据策略函数选择出行为At,接着发送给环境模型。环境模型根据接收的行为通过转移函数转移到下一状态St+1和奖励Rt+1,以此循环往复。强化学习的目的是让行为体学习并找到最优或接近最优的行为策略方法以此最大化奖励收益。强化学习的演化性和动态性使我们能够探索行为体在复杂博弈场景中的决策及策略偏好变化,并为ABM的验证与校准提供支持。这种结合将帮助我们更好地把握系统的不同状态及其概率分布。

  总之,对于多个国家之间战略层面的多回合博弈,常规博弈论的数学求解方法已经显得力不从心。因此,针对这样的复杂场景,我们只能发展基于博弈论核心思想的大规模高性能ABM系统,来捕捉复杂博弈所导致的各种复杂状态及其概率分布,并进一步反推不同行为体的行为、行为规则等等,从而实现对非常规复杂战略博弈的更全面的理解与应对。

  另外需要特别指出的是,这类非常规复杂战略博弈问题几乎不可能有大量的数据,因此,许多高度依赖海量甚至大规模数据的机器学习的做法在这类问题上也没有太多的用武之地。针对这类非常规复杂战略博弈问题,我们需要的是笔者此前提出的“全数据计算”的思路,即,基于问题来思考数据和技术路径。

             总结                                                                            

  国家在国际大环境下面对的博弈基本都是多方多轮的非常规复杂战略博弈问题。要更好地应对这些博弈问题,我们需要突破传统的博弈建模方法,特别是突破“共同知识”对传统博弈建模的禁锢,从而构建非常规复杂战略博弈的模型,并运用大规模高性能的ABM来推演这类非常规复杂战略博弈问题。这样才能够最终实现让博弈建模从理论模型(“玩具”)到真实场景应用的决定性转变。

唐世平教授简介

复旦大学“复杂决策分析中心”主任唐世平教授,是复旦大学特聘教授、教育部“长江学者”特聘教授、国际研究协会(The International Studies Association, ISA)副主席。作为当代中国最具国际影响的社会科学家之一,他在多个领域均有广泛丰硕的成果。迄今为止,他已出版五部英文专著、三部中文专著、一部英文编著和三部中文编著。其中,Social Evolution of International Politics(《国际政治的社会演化》,牛津大学出版社,2013年)于2015年荣获 ISA “年度最佳著作奖”,是亚洲和中国首位获此殊荣的学者。他的第五部英文专著The Institutional Foundation of Economic Development(《经济发展的制度基础》)于2022年在普林斯顿大学出版社出版。他也是多个国际顶级和一流刊物的第一位来自中国的编委会成员。

唐世平教授是中国计算社会科学、特别是决策计算的拓荒者之一,他提出了基于“全数据计算”(total data computation)的“决策计算社会科学”理念。

复旦大学“复杂决策分析中心”简介

复旦大学“复杂决策分析中心”成立于2013年,是我国第一个基于“计算社会科学”,专门为国家战略决策提供技术支持的研究中心。中心立足社会科学研究方法和问题前沿,直面变化与复杂的世界,旨在建立起一套基于广泛而丰富的历史经验和科学方法的分析框架、模型和工作软件,将前沿的社会科学研究方法与实际的学术和政策研究结合起来;把战略行为和战略决策研究的经验一般化、模型化,做到可复制、可移植。通过改进或整合既有的技术平台,开发新的技术平台,成为国家战略决策的技术支持中心,为我国的战略分析和决策提供技术支持。

中心的成立得到了来自国家多个重要部门和机构的支持。从2016年起,完全抛开民意调查,而是基于计算机模拟仿真技术,中心的团队已经连续五次精准预测了美国和我国台湾地区的选举结果。中心还开发了多款针对其它复杂决策问题的计算模拟预测平台。