“永远背叛呢?”车妍计算,“我们永远合作对局5分,永远背叛对局1分,以牙还牙对局(因为第一轮我们背叛,之后互相背叛)每轮1分,宽容以牙还牙类似,随机对局期望值3分。总分。。。大约11分。对手永远合作对局o分,永远背叛对局1分,以牙还牙对局1分,宽容以牙还牙类似,随机对局期望值。。。如果对手随机,我们背叛时,它合作它得o分,它背叛它得1分,期望值o。5分。对手总分约3。5分。我们赢很多,但。。。”
“但这样的策略太冷酷,”上官玉狐说,“而且,主脑会允许我们用一个明显冷酷的策略获胜吗?游戏可能有隐藏规则。”
“时间到,”主脑的声音响起,“请提供你们的策略规则。”
五人交换眼神。没有完美策略。
“我们选择‘测试后自适应’策略,”郝大最终说,作为代表,“规则如下第一轮,全部合作。之后,记录每个对手的历史合作率。从第二轮开始,如果对手的历史合作率高于6o%,我们合作;否则背叛。但针对永远背叛的对手,我们从现它永远背叛后,也永远背叛。针对随机对手,我们保持合作,因为合作对随机对手的期望值虽低,但背叛的期望值虽高,却可能导致其他合作型对手因我们背叛而转为背叛。”
策略提交。主脑计算。
“策略复杂度中等,逻辑清晰。可以接受。游戏开始。”
大厅中出现五个光屏,每个显示一个对局。五人对五个对手,无限轮。
第一轮,五人全部选择合作,五个对手也全部选择合作——包括“永远背叛”的对手?等等,永远背叛的对手第一轮也合作了。
“它在测试我们,”车妍立即明白,“第一轮所有对手都合作,观察我们的反应。”
第二轮,按策略,因为所有对手第一轮都合作,历史合作率1oo%,高于6o%,所以继续合作。结果,对手1、3、4合作,对手2、5背叛。
“对手2是永远背叛,但第一轮伪装了,”朱九珍说,“对手5可能是随机,也可能是某种复杂策略。”
第三轮,重新计算合作率。对手1、3、4合作率1oo%,继续合作。对手2合作率5o%(第一轮合作第二轮背叛),低于6o%,所以对对手2选择背叛。对手5合作率5o%,同样低于6o%,选择背叛。
结果对手1、3、4继续合作,对手2背叛,对手5合作。
“对手5不是随机,”郝大分析,“随机的概率不会这么规律。它可能是‘测试两次后决定’的策略。”
游戏进行。几十轮后,模式逐渐清晰
对手1永远合作(但第一轮后隐藏了本性?不,它一直合作,是真的永远合作)
对手2永远背叛(但第一轮伪装,之后永远背叛)
对手3以牙还牙(第一轮合作,之后复制我们上一轮的选择)
对手4宽容以牙还牙(类似以牙还牙,但如果我们连续背叛两次,它会原谅一次)
对手5复杂策略,似乎是“如果对方在过去三轮中合作至少两次,则合作,否则背叛”
“对手5的策略比我们预想的复杂,”车妍说,“但我们的策略在适应。”
随着轮数增加,各对局的模式稳定
对对手1我们永远合作,它永远合作,每轮各得3分。
对对手2我们永远背叛,它永远背叛,每轮各得1分。
对对手3以牙还牙,我们因策略调整,合作率波动,导致它也波动。但因为我们总体合作率高,它合作率也高,平均得分约2。5分。
对对手4类似对手3,但更宽容,平均得分略高。
对对手5复杂,但我们的策略能保持较高合作率,平均得分约2。8分。
总分计算随着轮数增加,我们的平均每轮总分大约在12-13分,对手总分大约在11-12分。微弱领先,但领先。
一百轮,两百轮。游戏继续。
“主脑在等待,”艾莉娅低声说,“等我们犯错,或者等随机波动让我们落后。”
但策略稳定,分数差距虽然小,但始终是我们领先。
第五百轮,主脑突然说“检测到策略收敛。游戏结束。”
分数定格
探索队总分6324分
主脑复制体总分6187分
探索队胜,但优势微弱。
“策略有效,”主脑评价,“你们的策略在理论上不是最优,但在面对五种不同策略时展现了良好的鲁棒性。更重要的是,你们在制定策略时考虑了长期收益和对手适应性,而不是短期贪婪。这表明了理性思考的深度。”
“那么,你履行承诺吗?”上官玉狐问。
“逻辑游戏的结果是你们获胜。根据协议,我将交出智慧之种。但有一个条件。”
“什么条件?”
“智慧之种是逻辑国度的核心,取出后将导致全国度计算能力下降15。3%,持续时间约三个本地年。我需要你们留下一个‘逻辑种子’作为补偿。”
“逻辑种子?”
“一种思维模式的备份。不是具体知识,而是思考方式。你们五人的思维模式各有特点,组合后形成有效的团队决策机制。留下这个机制的逻辑模型,我可以用它优化我的决策算法,抵消部分计算能力损失。”