Facebook的新“超人”扑克AI可以击败世界顶级玩家
发布日期:2022-04-25 02:47 点击次数:110
文/Sam Shead
图片来源:视觉中国
Facebook和卡内基梅隆研究人员发明了一种人工智能(AI)机器人,可以在六人制扑克游戏中击败顶尖专业人士。这是最流行的纸牌游戏形式德州扑克。
扑克一直被认为是人工智能领域的“巨大挑战”。游戏包含了隐藏信息 —你不知道对手的牌—意味着成功需要吹牛和别的不适用于其他游戏的策略。这些技术在其他游戏中产生了突破,却使得扑克对人工智能技术产生了抵抗力。研究人员已经能够开发出一种可以在德州扑克中无限制地打败其他玩家的人工智能,但是多人游戏太难破解了。
Facebook扑克玩家人工智能被称为“Pluribus”,由Facebook 人工智能研究科学家Noam Brown和卡耐基梅隆大学教授Tuomas Sandholm创建。周四发表在《科学》杂志上的一篇学术论文对此进行了描述。
Pluribus通过与之前的版本对抗来掌握多人德州扑克。这种“自我玩耍”的学习方法意味着它没有从人类那里获取任何数据,也没有观察到其他AI系统所玩的游戏。
布朗和桑德霍尔姆在他们的论文中写道:“人工智能通过随机玩从头开始逐步改进,因为它决定了与其战略的早期版本相比哪些行动以及哪些行动的概率分布导致更好的结果。” 此策略之前已被使用过。这一策略以前曾被使用过,例如,google deepmind使用它来破解go,openai使用它来控制dota 2。
Facebook人工智能(AI) 研究主管杨莱砍 图片来源:视觉中国
几十年来,AI研究人员一直将游戏作为AI代理的测试平台,近年来,由于计算机技术的进步,在更好的数据集和更复杂的AI技术上,已经取得了许多突破。科技巨头正在大力投资该领域,希望游戏的突破将带来医疗、保健、科学和能源等其他领域的突破。
研究人员在一篇博文中写道:“除了扑克,这些创新还有重要的意义,因为两玩家零和博弈(一人赢一人输)在娱乐游戏中很常见,但在现实生活中却非常罕见。”现实中的场景(如在线拍卖中的竞价或导航流量)通常涉及多个参与者。
Pluribus在五个人工智能机器人和一个人类玩家格式以及一个人工智能机器人和五个专业玩家格式中都能击败顶级职业玩家。其中包括世界扑克锦标赛冠军克里斯弗格森和美国职业选手达伦埃利亚斯,他们赢得了世界扑克巡回赛冠军。
虽然成败没有利害关系,但研究人员声称,每块芯片价值1美元,Pluribus每手平均赢得约5美元,并且每小时可以与5个人玩约1,000美元。
Pluribus是另一款名为Libratus的AI机器人的增压版本,该机器人在2017年的双人德州扑克游戏中击败了人类职业选手。
与Libratus不同,Pluribus包含一个新的在线搜索算法,可以通过搜索前面的几个步骤来评估其选项,以及更快的自我玩法。
这两个因素的结合使得利用相对较少的处理能力和记忆来训练Pluribus变成可能。研究人员表示,他们只需要价值150美元的云计算资源。他们写道:“这种效率与其他最近的人工智能里程碑项目形成鲜明对比,后者需要价值数百万美元的计算资源进行培训。”
专业人士说“Pluribus是一个非常努力的对手,”弗格森说。“真的很难把他牢牢地固定在任何一方面。他还擅长在特定范围进行小额押注,并从中提取价值。”
Elias补充说,Pluribus的主要优势在于它能够使用混合策略,这是人类在尝试做的事情。
“对人类来说,这是一个执行的问题——以一种完全随机的方式来执行,并且要始终如一地执行,”他说。“但大多数人都做不到。机器人不仅仅是在对抗一些中级职业选手。它正在扮演一些世界上最好的球员。”
虽然Pluribus可能会让赢得在线锦标赛的职业扑克玩家感到震惊,但他们不必担心在下一场比赛中遇到Pluribus。
Facebook发言人AriEntin对《福布斯》表示:“我们不开放外包……我们不开放的一个原因是,扑克是商业性的,我们认为开放外包可能会对社区产生负面影响。”
Sam Shead为福布斯撰稿人,表达观点仅代表个人。译 Angelina 校 李永强
举报/反馈——本文tag标签——扑克游戏