着训练的进行,AI的棋力增强,价值网络的判断越来越准,我们再逐步降低这个温度系数,让AI的决策更加倾向于它认为的最优解。”
“原来如此,通过退火(annealing)的思想来动态平衡探索和利用(exploration and exploitation),非常精彩的设计!”皮埃尔教授恍然大悟,毫不吝啬自己的赞美。
他们两人的讨论,吸引了旁边更多人的注意。
这时,一位看起来四十多岁,气质儒雅的华人教授走了过来。他来自斯坦福大学,是神经网络架构设计领域的知名专家。
“林总,你好。你的演讲非常震撼。”他先是礼貌地问候,然后直接切入了技术话题,“我注意到,天元GO的策略网络和价值网络,使用的是相对传统的卷积神经网络结构。我有一个想法,不知道是否可行。”
“教授请讲。”林星石饶有兴致地看着他。
“在处理围棋这种全局性很强的任务时,棋盘上任何一个位置的变化,都可能对全局的局势产生影响。传统的卷积神经网络,其感受野(receptive field)是局部的,需要通过堆叠很多层才能捕捉到全局信息。”这位教授顿了顿,提出了自己的核心观点,“我们最近在自然语言处理领域的研究发现,一种叫做‘注意力机制(Attention Mechanism)’的模型,可以很好地解决长距离依赖的问题。它允许模型在处理序列数据时,动态地将‘注意力’集中在输入序列的特定部分。我想,这种机制或许也可以应用到围棋AI中,让神经网络在评估一个落子点时,能够‘看到’并‘关注’到棋盘上所有与之相关的重要位置,而不仅仅是其周围的局部区域。”
注意力机制!
林星石心中猛地一震。
他当然知道注意力机制,更知道它在未来几年,将如何彻底改变深度学习的版图,并最终催生出像Transformer这样强大的模型。
他没想到,在这个时间点,就已经有学者开始思考将其应用于计算机视觉和棋类AI的可能性。
这位教授的想法,与他脑海中对天元GO未来版本的规划,不谋而合。
“教授,您的这个想法……简直是天才!”林星石的眼神中爆发出强烈的光彩,“将注意力机制引入,让网络自主学习棋子之间的关联性,这无疑会让价值网络对局势的判断,以及策略网络对落子点的选择,提升到一个全新的高度。这太重要了!”
得到林星石如此高的评价,那位教授也显得非常高兴。两人立刻就注意力机制如何在卷积网络中实现、如何与MCTS结合等技术细节,展开了深入的讨论。
他们的对话,充满了各种专业术语和复杂的数学公式,让旁边一些道行稍浅的研究者听得如痴如醉,却又云里雾里。
这章没有结束,请点击下一页继续阅读!
就在此时,一个略带英国口音的年轻声音插了进来。
“林先生,可以打扰一下吗?”
林星石转过头,看到一个金发碧眼,看起来和他年龄相仿的年轻人。他的脸上带着一丝腼腆,但眼神中却充满了对技术的热情。
“你好,我是来自DeepMind的丹尼斯。”他做了个简单的自我介绍。
DeepMind!
这个名字让林星石再次将目光聚焦。此时的DeepMind,还只是英国一家初创公司,尚未被谷歌收购,也还没有因为AlphaGo而名满天下。但林星石清楚地知道,这家公司里,正聚集着一群全世界最聪明的大脑,他们和自己一样,坚信着强化学习是通往通用人工智能的钥匙。
“你好,丹尼斯。很高兴认识你。”林星石友好地伸出手。
“你的演讲太棒了。”丹尼斯握住林星石的手,诚恳地说道,“我们也在尝试用深度强化学习来玩雅达利(Atari)游戏,并且取得了一些不错的成果。但是,将它应用在围棋上,难度完
温馨提示:亲爱的读者,为了避免丢失和转马,请勿依赖搜索访问,建议你收藏【久久小说】 m.gfxfgs.com。我们将持续为您更新!
请勿开启浏览器阅读模式,可能将导致章节内容缺失及无法阅读下一章。