2017世界扑克圈十大霸屏事件之:人机大战AI大败职业牌手
作者: 发布时间:2018-09-07 来源:本站 点击:

  谁能想到在2017年,人工智能(AI)竟然会在我们最心仪的游戏 - 无限注德州扑克 - 中胜了人类一筹?不过,既然人类玩无限注德州扑克的战略已经升级到了一个非常高的程度,电脑程序进化的程度超过人脑也没有那么稀奇了。毕竟,这只是时间问题而已。

  德州扑克是信息不完全的游戏,不同的玩家通过各种不同的信息,根据起始筹码量,可以碰到10161个不同的决策点。德州扑克这种复杂性成为了设计AI的一个“基准挑战”。如果AI能搞定德州扑克,那必定可以应用于其他信息不完全的领域。

  尽管AI与策略游戏已经纠葛了30多年,但是直到最近,机器人才终于在高人气的无限注德州扑克游戏中击败了人类。2015年3月,有一款叫做Claudico的机器人跟四名顶尖的单挑无限注德州扑克高手进行了对战。不过,机器人的破绽实在太多,无法战胜人类。但是,对战最后产生的数据可能会有一点误导人。

  这四名人类玩家分别是Bjorn Li, Doug Polk, Dong Kim和Jason Les。他们总共玩了8万手牌,最终赢了$732,713(不过Les输了$80,842)。但是,整个挑战过程中,双方全部的投注超过了$1.7亿,这使得人类的盈利还占不到总投注额的0.5%。从统计学上来讲,几乎可以忽略不计。

  卡耐基梅隆大学的这支团队并未止步于Claudico,特别是大学计算机部门的Tuomas Sandholm和Noam Brown。两人还在继续研究,不断从职业牌手那里得到反馈,然后用于改善机器人的设计。最后,他们在2016年设计出了Baby Tartanian 8,随后又设计出了Libratus(冷扑大师),准备让它在2017年接受挑战。

  2017年1月,人机大战“复仇赛”再次启动。这一次,人类挑战者的队伍稍有变化。Kim和Les的队友变成了Jimmy Chou和Daniel McAulay。

  我们通过当时的报道可以看到,这次复仇赛的结果和第一次不一样了。AI在跟人类打了12万手牌之后,赢了筹码$1,766,250,取得了大胜。冷扑大师的表现还为它的设计团队赢得了11月的HPCwire‘人工智能最佳使用’奖。

  Doug Polk是这样说Claudico的,“它有一些漏洞,但是在新的程序冷扑大师中得到了修补。我现在清晰地认识到,到了这个时候,人类在单挑无限注游戏中已经滞后了,而且我可以想象到这种情况在其他形式的游戏中还会继续。”

  Polk说到其他形式时,提到机器人目前主要的漏洞在于,还不能把在无限注单挑游戏中的表现复制到其他游戏形式中,比如六人桌、九人桌游戏或其他扑克游戏。但是就像Polk所说,这一天应该不会很远了。

  那么,我们身为扑克爱好者和迅猛发展的技术社会中的一员,扑克AI的迅猛发展,对我们有什么借鉴意义呢?

  在扑克AI的测试过程中,Jason Les是参与度最高的职业牌手,拥有跟各个迭代的机器人交手的第一手经验。Les对记者说,尽管他在大学学的不是人工智能,但是他一直觉得AI非常迷人。在卡耐基梅隆大学的团队寻找顶尖玩家跟Claudico挑战时,他毫不犹豫地参与了进来。前段时间,Les还跟“伙伴”冷扑大师在神经信息处理系统大会中“叙旧”了呢。

  “扑克大师Jason Les将会在周二晚上参加2017NIPS演示会议,跟他的老伙计冷扑大师重聚!”

  “跟冷扑大师对战是一次非常紧张激烈和费劲的经历。它采用的是比以前更加接近纳什平衡的策略,也就是说它几乎没有可以利用的漏洞。我们一开始希望能通过使用在它的抽象中不存在的下注量,从而获得优势。但是,我们后来发现,每当我们使用它一开始不熟悉的下注量后,AI会立刻运行算法来学习新的下注量,填补自己的不足。”

  AI的建造者在一篇正式的文章中提到了Les所指的的抽象。12月18日,这篇名为“Libratus: The Superhuman AI for No-Limit Poker”(冷扑大师:击败无限注扑克的超人类AI)详细解释了AI的内部工作原理。

  冷扑大师并不像有些人想象的那样,预先编程了策略,而是写好了一个行动之前采取纳什平衡的决策算法。这个算法是以“行动抽象”(不同情况下采取不同组的下注量)和“牌面抽象”(把类似的手牌分为一组,采取相同的打法)为基础的,能让冷扑大师把10616个游戏决策点降低到1012个。

  和以前的AI不同,冷扑大师共有三个模块组成,每个模块都有独立的算法。论文中列出了这三个模块:

  “从优点方面来看,冷扑大师采取的是非常平衡的策略,在所有时机的诈唬数目非常合适。另外,它还会执行完美的混合策略,使得对手更难推测它的范围。人类没有能力采取同样的混合策略, 做不到用不同的办法不同的下注量和不带偏见的打同样的手牌。冷扑大师没有偏见或习惯,只会根据玩过的上亿牌精心调整自己的策略。”

  Les认为从某种程度上,人类可以在玩扑克方面模仿冷扑大师,采取混合的策略,不要每次都用同样传统的方式来玩某些牌或应对某些情况。对手有悟性的话,很容易就能看穿这种规律。他只需要做简单的调整就能打败你了。

  “从观察冷扑大师玩牌,我发现人类可以学到的最好的东西就是,应该采取混合的策略。也就是说,你应该用许多不同的方式来玩牌,哪怕有时候看起来有些违反传统。不要让别人所‘接受’的玩法影响你对于对错的判断。采取这种办法,像冷扑大师一样采取各种各样的下注量(有大也有小),这是每个人都可以学习的,而且可以用来对付正常的人类对手。”

  在跟冷扑大师的挑战结束后,Dong Kim也在采访中提到了类似的看法。他说,作为“世界一流”的AI,它使用的是混合的策略,而且用超池下注来诈唬的次数远超他所见过的人类。

  最近几个月,超池下注成为高水平玩家越来越喜欢采用的玩法。他们把这种战术融入到自己的游戏中, 跟冷扑大师一样,用它来平衡诈唬和价值下注。超池下注的玩法曾多次被顶尖牌手提及。过去几年,也有越来越多的人开始讨论和使用游戏理论最优策略(GTO)。

  我们从冷扑大师身上能学到的最重要的就是AI的学习方法。冷扑大师之所以能击败顶尖的无限注德州扑克单挑桌玩家,不仅是因为有复杂的算法,还因为它能根据新的信息和玩过的新手牌,不断调整策略。

  虽然我们人类并没有冷扑大师这种超神的计算能力,但是顶尖的玩家可以通过使用AI模拟工具和软件,比如德州扑克快速GTO破解器PioSOLVER,有意识地训练自己,不断寻找对手策略上的漏洞,然后调整策略来利用这些漏洞。

  “AI的进步真的为人类改善自己扑克游戏提供了强大的工具。跟优秀的对手对战一直是学习玩好扑克的不二法门。今天你如果想找到好的对手,那就要去玩真钱。如果你真的想挑战自我,就必须去玩更高的级别。有了AI训练工具,玩家有机会在不真正输钱的情况下,跟绝对有最佳表现的对手对战。”

  虽然AI在破解无限注德州扑克游戏上有了长足的发展,但是就算是冷扑大师的创造者Brown,还是解释说这个游戏并没有被“破解”,至少近期不会。在2016年接受采访时,他说,“无限注德州扑克在我们有生之年没可能破解。话虽如此,我们还是能想到很多好的近似解,我认为几年后我们就能看到机器人打败非常顶尖的职业牌手了,不过这跟破解还是有很大区别的。”

  不到一年后,他的预测就在冷扑大师的神勇表现中得到了验证。不过Brown明确表示,冷扑大师的成功归功于“好的近似解”,主要靠的是程序中的抽象。

  但是,就算AI的计算能力越来越先进,成本效益越来越好,大多数真实的扑克场景依然是在人与人之间进行的。我们都知道,人类不过就是人类。人类会犯错,会有情绪。他们还会分心,除了扑克之外还有其他的生活,而且多数人因为有“真正的”工作,所以用来学习游戏的时间是很有限的。人们受限于人脑的计算能力,同时许多人玩扑克不是为了赚钱,而是有其他的目的,比如娱乐。所有这些因素加在一起,使得无限注德州扑克依然活力无限,受众很广,至少目前是这样。

  Dan “Jungleman” Cates 也同样这种说法。他之前在录一个视频时说,尽管我们深爱的两张牌游戏从很多角度来看“破解”了,但是大部分正常人依然玩的是次优的扑克,有悟性的玩家依然可以利用他们的破绽赚到钱。

  虽然有些人担心机器人可能被不法分子用来在线上游戏作弊,但是玩家和线上网站可以采取多种预防措施来保护自己。玩家可以留意下注量和时间的相似规律,看看是否存在不同寻常的下注方法,在聊天框是否没有回应,然后把可疑的行为举报给扑克网站。

  另外,预防使用机器人和其他形式作弊的技术已经越来越先进,线上扑克在很多合法的国家和地区已经非常安全。不过,有人还是会问,机器人技术的发展是不是会使得预防机器人越来越困难。Les对这个问题也有所提及。

  “AI的发展有可能导致玩线上扑克越来越不安全。虽然冷扑大师只玩单挑桌,但是随着AI技术的发展,它会逐步渗入到六人桌和满人桌领域,所以在线上扑克的安全问题上,我们可能会面临更艰难的决策。我知道扑克网站做了很多的努力来保证安全,因为这是他们整个业务的根基,我希望他们能在采取应对方法上取得成功。”

  “从长远来看,我认为互联网扑克的生存靠的是构建新的游戏,强硬地面对AI的发展。新的游戏可能是增加扑克牌的数目,增加筹码筹码量,或是做其他的改变。”

  不论是不是为了防止线上扑克的作弊现象,Les所提到的增加扑克游戏的种类确实是大势所趋。所有的迹象都表明,扑克是死不了的。

  
【评论】【加入收藏夹】【 】【打印】【关闭