欢迎光临KOTOO财情




不需要人类知识,AI 也能以更少步数复原任意 3 阶魔方

2024-11-30 222

魔术方块是非常有趣的益智玩具,但从难度来说,其实不比其他棋类游戏困难,如果人工智能(AI)算法可在国际象棋或围棋轻松打败人类,那么复原魔术方块也不是困难的事。

但是对算法来说,要解出魔术方块的谜题和下棋是完全不同种类的任务。

过去在棋类游戏展现出超人类表现的算法,都是属于传统的“强化学习”(RL)系统,这类型 AI 确定某些特定一步是实现整体目标的积极步骤时,便会获得奖励,进而使系统产生追求最大利益的习惯性行为,然而当 AI 无法确定这一步是否有益,强化学习自然无法发挥作用。

如果还是无法理解,试着这么想吧:玩棋类游戏时,系统可轻易判定一个动作究竟属于“好棋”或“坏棋”,但转动魔术方块时,你能说出任何特定的一步,是改善整体难题的关键吗?

从外观来看,魔术方块是很单纯的益智玩具,然而因为 3D 立体的特性,这让一般常见的 3 阶魔术方块就已有惊人的近 4.33×1019 种组合,其中只有六面都是相同颜色的状态才能成为“正确解答”。

过去人们已研究出许多不同算法和策略来解决这项难题,但 AI 研究人员真正的目标还是希望能像 AlphaGo Zero 那样,让 AI 在没有任何历史知识的情况下,学会自行应对随机的魔术方块难题。

近期加州大学 Stephen McAleer 和团队透过一种称为“自学迭代”(autodidactic iteration)的 AI 技术打造“DeepCube”系统,成功让 AI 面对任何乱序 3 阶魔术方块时,都能成功找出正确解答。

根据团队解释,自学迭代是一种全新的强化学习算法,与过去棋类游戏算法的处理方式不同,采取“反著看”的内部奖励判断机制:当 AI 提出一个动作建议时,算法便会跳至完成的图形往前推导,直到到达提出的动作建议,藉以判断每一步动作的强度。

虽然听来相当繁杂,但这让系统更熟悉每一步动作,并得以评估整体强度,一旦获得足够的数据,系统便能以传统的树状搜索方式找出如何移动最好的方法。

▲ DeepCube 自行找出的策略 aba-1,许多玩家也经常使用。(Source:arXiv via Stephen McAleer)

团队研究发现,DeepCube 系统在训练时自己找出许多与人类玩家相同的策略,并在经过 44 小时的自学训练后,已能在没有任何人为干预下,平均 30 步以内复原任何随机乱序魔术方块──这些“最佳解答”不是和人类最佳表现一样好,就是比这些表现更好。

McAleer 和团队打算未来进阶测试更大、更难解决的 16 阶魔术方块,这项全新的系统将有助于 AI 应用更全面化,像是生物物理学重要的蛋白质折叠(Protein Folding)问题或也有望得以解决。

  • Machines can now finish the Rubik’s Cube without human help
  • Self-Taught AI Masters Rubik’s Cube in Just 44 Hours

(首图来源:pixabay)

2019-03-13 18:31:00

标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条
0