CCDA研究 | 与中电科10所的合作研究在《国防科技大学学报》网络首发

中心与中国电子科技集团第10研究所的合作研究《多方危机博弈的“遗传-动态时间规整”策略偏好拟合》在《国防科技大学学报》网络首发。

文章摘要

为实现复杂多方危机博弈场景下各方行为决策的分析预测，本研究提出了结合行为体建模与“遗传-动态时间规整（dynamic time warping, DTW）”的策略偏好拟合方法。通过拟合多方危机博弈中的智能行为体的历史时序数据，模拟了国际行为体的危机决策过程，并预测了系统状态变化趋势。通过将专家知识与机器学习相结合，本文模型在多方博弈行为体策略偏好拟合方面取得了初步成果，在历史案例状态序列预测任务中取得平均DTW距离9.35。本文的方法为多方危机博弈问题提供了全新的研究路径。本文提出的建模方法与模型校准方法能够被广泛应用到多边多轮谈判、多边经济制裁、区域冲突等其他多方复杂博弈场景。

关键词：行为体建模；计算机模拟；遗传算法；动态时间规整；非常规复杂博弈；国际冲突管理

背景介绍

文章是复旦大学复杂决策分析中心在推动“非常规复杂战略博弈”方面的最新阶段性成果。

此前，复旦大学复杂决策分析中心主任唐世平教授指出，真实世界中的绝大部分博弈问题，都不是通常教科书里面的“常规战略博弈”问题，而是“非常规复杂战略博弈”问题。和常规战略博弈问题不同，“非常规复杂战略博弈”问题通常是多行为体、多回合的复杂战略博弈，这些博弈不仅涉及多个行为体，行为和行为规则多样，行为交互作用规则多样（比如，不一定是你来我往），甚至由于行为体需要考虑多个方面的得失，因此权衡得失也非常困难。（原文链接：https://mp.weixin.qq.com/s/ct4Kntn6DrNt1H7CyM-bhQ; https://m.thepaper.cn/newsDetail_forward_28691933 ）

最为重要的是，这类博弈问题通常还缺乏“共同知识”。这其中最核心的是，博弈的规则是不确定的，或者至少是不完整的。比如，任何棋类游戏都是规则非常明确且双方必须遵守的。这些非常明确且双方必须遵守的规则就是这类博弈问题中核心的“共同知识”，也是这类博弈得以进行的核心基础。

在“非常规复杂战略博弈”中，参与各方均有“阴谋”与“阳谋”，而且手段可能是“灰色”的（尔虞我诈、盟友背后捅刀），甚至谈判参与方也会发生变化。各方通常都试图“出奇制胜”，可以说毫无规则可言，导致博弈更具不确定性。而战争显然是最为复杂的非常规博弈问题。《孙子兵法》的核心思想“兵者，诡道也”恰是充分体现了非常规博弈的核心原则。

显然，这些博弈场景和博弈论通常讨论的博弈情形和模型有天壤之别。这样的博弈问题几乎不可能有一个完整的数学刻画，因而也不可能有数学均衡解。针对此类问题，唐世平教授认为，发展基于行为体的建模（Agent-Based Modelling，ABM）系统为核心，再结合强化学习以及其他的机器学习技术，可能是唯一可行的解决方案。

本文是中心在这类问题上的研究进展的一部分。

全文下载地址：https://link.cnki.net/urlid/43.1067.t.20251225.1008.002