“那么逻辑游戏如何?”郝大突然提议,“你给我们一个逻辑挑战。如果我们通过,你交出碎片;如果我们失败,我们离开,不纠缠。这是风险可控的测试你只损失一次机会,但可能获得验证假设的数据;我们只损失时间,但可能获得拯救世界的机会。从博弈论角度,这是均衡策略。”
主脑再次沉默。这次更久。
“提议符合逻辑,”主脑最终说,“我设计一个逻辑游戏。如果你们能在游戏中获胜或达成平局,我交出智慧之种。如果失败,你们离开,但需留下所有已收集的维度数据作为补偿。”
“我们不可能交出已有碎片的数据,”上官玉狐立即说。
“不要求碎片数据,只要求其他研究数据。同意吗?”
众人对视。这条件可以接受。
“游戏规则,”主脑说,“游戏名为‘无限迭代囚徒困境’。经典囚徒困境中,两个囚徒各自选择合作或背叛,根据选择获得不同收益。无限迭代版本中,游戏重复进行,玩家可以选择基于历史的策略。”
“我们和你对战?”艾莉娅问。
“不,你们五人作为一个团队,对战我的五个复制体。每轮,团队必须达成一致选择(合作或背叛),我的复制体也会选择。收益矩阵如下——”
全息界面显示
双方合作各得3分
我方合作,对方背叛我得o分,对方得5分
我方背叛,对方合作我得5分,对方得o分
双方背叛各得1分
“游戏进行无限轮,但实际上,当连续1oo轮没有新的策略变化时,视为结束。最终比较总分。平局即你们获胜,因为你们的目标是‘不输’。”
“听起来是重复博弈的标准模型,”朱九珍思考,“最优策略通常是‘以牙还牙’第一轮合作,之后每一轮复制对方上一轮的选择。”
“那是简单策略,”主脑说,“我的五个复制体将使用五种不同策略,从简单到复杂。你们需要制定一个策略,应对所有五种对手。策略必须在游戏开始前确定,中途不能更改。”
“但我们可以根据对手的历史调整每轮的选择,”车妍说。
“可以,但必须基于预设的决策规则。比如,‘如果对方在过去三轮中背叛两次以上,则本轮背叛’这样的规则。但规则必须提前定义。”
“我们需要讨论,”上官玉狐说。
“给你们十分钟,”主脑说,“十分钟后,游戏开始。”
五人围成一圈。这是纯粹的智力游戏,没有任何武力或特殊能力的用武之地。
“五种策略,”郝大说,“主脑没说具体是哪五种,但可以推测。最可能的是永远合作、永远背叛、以牙还牙、宽容以牙还牙(类似以牙还牙,但偶尔原谅背叛)、以及随机策略。”
“随机策略最麻烦,”朱九珍说,“完全不可预测。”
“但我们不需要赢每一个对手,”车妍说,“只需要总比分不输。我们可以针对不同对手制定不同应对,但问题是我们不知道哪个对手用哪个策略,而且我们五人对战五个对手,是五个独立的对局同时进行。”
“不,”艾莉娅突然说,“主脑说‘你们五人作为一个团队’,意思是我们的选择必须一致。所以我们每次只能做一个选择,这个选择同时面对五个对手。换句话说,我们是在用一个策略同时对战五个不同策略的对手。”
“那就更复杂了,”张海摇头,“我们要找一个策略,在面对永远合作、永远背叛、以牙还牙、宽容以牙还牙和随机策略时,总分不输。”
“我们需要计算,”郝大闭上眼睛,真相之眼自动开启。但这次,他看到的不只是真相,而是可能性树。在真相之眼的视野中,无数策略分支展开,每个选择导致不同的分数流。但可能性太多,即使真相之眼也无法处理所有。
“关闭它,”上官玉狐突然按住郝大的肩膀,“用逻辑,不是用能力。主脑在测试我们的逻辑,不是我们的能力。”
郝大点头,关闭真相之眼。纯粹的数学和逻辑问题。
“我们可以用这样的策略,”车妍开始在地上画图,“第一轮永远合作。之后,记录每个对手的历史。对于永远合作的对手,我们永远合作,每轮得3分,完美。对于永远背叛的对手,我们永远背叛,每轮得1分,虽然不高,但不会得o分。对于以牙还牙的对手,我们永远合作,它也会永远合作,也是每轮3分。对于宽容以牙还牙,类似。麻烦的是随机策略。”
“随机策略的期望值是多少?”朱九珍计算,“如果我们永远合作,对方随机选择,5o%合作得3分,5o%背叛得o分,期望值1。5分。如果我们永远背叛,对方5o%合作我们得5分,5o%背叛得1分,期望值3分。所以对随机策略,永远背叛更好。”
“但如果我们永远背叛,对永远合作的对手就糟了,”艾莉娅说,“永远合作的对手在我们背叛时得o分,但我们在它合作时背叛得5分,所以其实我们得分高。但道德上。。。”
“这里没有道德,只有逻辑,”上官玉狐说,“但我们不能只考虑单个对手,要考虑总分。我们需要最大化总分,确保不输。”
郝大突然想到一个策略“我们使用‘自适应’策略对每个对手单独记忆,但基于一个简单规则如果对手的合作率高于某个阈值,我们合作;否则背叛。但我们需要动态调整阈值。”
“太复杂,需要预设规则,”车妍说,“而且主脑可能限制策略复杂度。”
时间一分一秒过去。
“我有个想法,”张海突然说,这让大家有些惊讶——张海通常不是策略制定者。
“说,”上官玉狐鼓励。
“我们不追求最大化得分,我们追求不输。主脑的五个复制体之间没有协调,我们的选择会同时影响五个对局。如果我们永远选择合作,那么对永远合作、以牙还牙、宽容以牙还牙,我们都能得高分;对永远背叛,我们得o分,但它得5分;对随机,期望值1。5。总分可能不低,但永远背叛的对手会拉高主脑方的总分。”
“如果我们永远背叛,”张海继续,“对永远合作我们得高分,对永远背叛我们得低分,对以牙还牙会陷入互相背叛,对随机期望值3分。但以牙还牙的策略会因为我们第一次背叛而永远背叛,所以那个对局会变成双方永远背叛,每轮各得1分。”
“复杂,”郝大揉太阳穴。
“简单化,”艾莉娅说,“考虑极端情况。如果我们永远合作,五个对手中,三个会与我们合作(永远合作、以牙还牙、宽容以牙还牙),一个永远背叛,一个随机。合作对局每轮各得3分,背叛对局我们得o分对手得5分,随机对局期望值我们1。5对手。。。如果对手随机,它合作时得3分,背叛时得5分,期望值4分。算总分。。。”
朱九珍快计算“我们每轮总分三个合作对局各3分共9分,永远背叛对局o分,随机对局期望值1。5分,总计1o。5分。对手总分三个合作对局各3分共9分,永远背叛对局5分,随机对局期望值4分,总计18分。我们输。”