Libratus为何能完胜人类德扑高手?
卡内基梅隆大学的Tuomas Sandholm和Noam Brown,最近在美国科学促进会发文,声称他们研发的叫做Libratus的机器人,能够在无限德州扑克单挑对战中取得“超人的绩效”。
今年一月,Libratus在匹兹堡一家赌场和由4名无限德州扑克单挑高手组成的团队进行了为期20天的“人机大战”。
四名人类高手分别是Jason Les,Dong Kim,Daniel McCauley和Jimmy Chou。
双方一共打了 12万手牌,最终人类牌手输了177万6千筹码(约每百手亏损14BB),人工智能取得了决定性胜利。
四名人类牌手无一例外都输给了AI。
而在2015年,早期版本的Libratus输给了另一个人类高手团队。
因为德州扑克的复杂性,击败人类职业牌手是一个很大的挑战。
Sandholm和Brown比较了限注德州扑克和无限德州扑克之间的差异。
“一种迭代算法被用来几乎完美解决限注德州扑克,一种相对简单的德州扑克版本,约有10的13次方个唯一决策点。
” 他们在文章写道。
“相比之下,单挑无限德州扑克有10的161次方个决策点,因此遍历整个决策树哪怕是一次也是不可能的。
对于这样一种复杂的游戏,为每个决策点预先计算一种策略是行不通的。
”
Sandholm和Brown还详细讨论了Libratus的“三个主模块”,这些模块允许它独立处理比赛中的每一手牌,实时找出一种策略。
尽管单挑无限德州扑克有10的161次方个决策点,但计算机科学家表示,他们不得不担心过度简化德州扑克。
如果他们这样做,人类牌手就可以压榨Libratus。
“从直觉来看,K大同花和Q大同花之间几乎没有差异。
”把它们同等看待降低了德州扑克的复杂性,从而使计算更容易。
然而,K大同花和Q大同花还是存在差异的。
在最高水平的扑克对弈中,这种差异可能就是输赢之间的差异。
许多观战者认为,人工智能的河牌圈策略是它能够成功对抗人类对手的主要原因。
Litbratus使用了一种非常平衡和强大(Libratus的拉丁语含义)的河牌圈超额下注筹码,它使用诈唬牌和价值下注牌做超额下注,使得人类高手总是摸不清头绪。
具体地说,Libratus能够考虑到牌局中的阻断牌(blocker)。
例如,如果你在K ♠ 7♠ 6♥ 2♣ J ♠公共牌面拿着A♠ 4♥,你只有一手A高牌,但你知道对手不可能拿到最好的牌(坚果牌)。
这为你提供了在河牌圈用诈唬牌做巨大的超额下注的机会。
不像之前的扑克AI,Libratus可以在河牌圈根据人类的下注灵活自如地重新计算,而不是不得不为河牌圈场景做预先计算。
“我们用一种抽象的方法执行我们的算法,在前两个回合这种算法是非常具体的,但在最后两个回合相对比较粗略。
”Sanholm和Brown在文中写道。
“然而,Libratus从不在最后两个回合根据抽象的解决方案去游戏。
相反,它在这些回合使用抽象策略,只是为了估算拿着特定底牌的某个牌手在子博奕中预期能够获得多少回报。
这个估算在实战中被用于选择更精确的策略。
”