汉邦问答 / 问答 / 问答详情

给你科普一下,为何AlphaGo这么牛?

2023-08-13 09:25:35
TAG: 科普
u投在线

在最近火的不行的围棋人机大战中

“人类最后的希望”

——柯洁

连续两场败给了人工智能阿尔法狗

最后一战即将在今天打响

一时间科技界人心惶惶

人们开始担心AI有天会取代人类

摧毁人类麻辣小龙虾鸳鸯火锅等文明

那么问题来了

阿尔法狗究竟是何方神圣?

人工智能(AI),指的是

跟人类智能相似的智能机器

例如机器人、语音图像识别等

这次的阿尔法狗

就是谷歌旗下DeepMind公司

开发的一款围棋人工智能程序

它横扫欧亚顶级围棋高手

去年打败了围棋世界冠军李世石

并且在今年推出了2.0版本

其等级分已超过人类第一的柯洁

于是有了这次的

人类荣誉之战

想了解阿尔法狗

就需要知道算力和算法

要知道,人类的算力十分有限

比如一个密码锁只有两位

有人会从00试到99解锁

但如果是四位就会智商捉急了

这就是算力不够

如今AI对弈国际象棋的算力基本达到

但对弈围棋的算力尚未实现

比方说

国际象棋棋盘上能够产生的

不同可能大约是10的46次方

而围棋却有10的170次方左右

两者对比相当于

所以在AI眼里

围棋是个还未跨越的里程碑

这种情况下就要考虑算法

阿尔法狗不得不选择

更智能的方法啃下这块骨头

它采取了一种大智若愚的方法

——蒙特卡洛搜索算法

比方说

你家到火锅店有ABC三条未知的路

同时出发300人,每条路100人

假设半小时内走A路的人最快到达

那么A路则是条好路

注:实际算法相当复杂

当然,路口越多,分析会越复杂

但放出的人越多,结果就越精确

相比一条路走到黑的穷举法

这种搜索算法大大前进了一步

而且阿尔法狗还会进行深度学习

它啃下了大量历史棋局

分析数据后能以最高质量下棋

不至于把所有概率都考虑一遍

惊人的算力+高效的算法

让阿尔法狗直指围棋巅峰之座

并且,它还以惊人的速度进化着

提升一个版本只需仅仅一周时间

对阵李在石的版本为V18

这次版本已经达到V60

当下版本的阿尔法狗的厉害之处

是只要没断电

它就能每时每刻学习棋艺

不但如此,他甚至还跳出了

学习人类棋盘的方法

进入了左右手互搏

自己跟自己对练的局面

它的出招也越来越没有套路可言

但归根结底

大家也不用太担心

人工智能真正需要面对的

是诸如情感分析、智能对话等问题

阿尔法狗的核心还是树搜索的计算方法

距离“自主思考”还有一定距离

但是朕已经研究出打败阿尔法狗

为全人类扳回一局的方法

那就是

【原创不易,转载请注明来源:朕说】

朕说:做最有趣有料的历史IP。历史也可以不端着,换种方式让更多人喜欢历史!

小白

  • AlphaGo究竟采用了怎样的技术让它不同以往呢?教会机器下棋,传统的人工智能方法是将所有可能的走法构建成一棵搜索树,用这种方法成功的让机器战胜过世界第一的国际象棋选手,但这种方法对围棋并不适用。此次谷歌推出的AlphaGo,将高级搜索树与深度学习算法结合在一起,甚至能够让机器做到“左右互搏”实现自我学习。

  • 在较短的时间内变得越来越聪明,量变必然会引起质变,而量变正是计算机最容易实现和最擅长的东西。对于此,国内人工智能企业,图普科技CEO李明强也发表了自己的看法:“我们作为同AlphaGo一样也是基于深度学习的人工智能企业,我是十分看好AlphaGo乃至整个人工智能的前景的。”当被问及深度学习算法未来在哪些民用领域能够为人类服务时,李明强信心十足的表示:“我认为所有的领域都会逐步应用,AI对人类是高维打击,这是遍地开花的事情,不是某个行业的事情。实现路径上,人工智能先替代简单机械性的事情,比如现在生产线上的智能机器人,我们图普的智能鉴黄机器人,然后逐渐过渡到复杂模糊的事项,比如自动驾驶,机器服务员,以后甚至模拟人类细腻情感、艺术创新,机器也会做的比人好,比如与人类恋爱调情、自主写歌画画。总之,现在人类能做的,未来人工智能可能实现,甚至做得更好,这样的未来并不遥远。”

  • 实际上,无论是在网友,还是在IT从业者,甚至是世界一流学者的评论中都能找到类似观点。尽管对于这场大战的结局人们的预测结果不尽相同,但有一点几乎达成了共识:人工智能最终将会战胜人类,剩下的只是时间问题。但正如谷歌董事长所言:无论谁胜谁败,人类都是赢家。

水元素sl

AlphaGo依靠精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合,以及可以通过左右互搏提高自己的水平,这个真的是有的恐怖了有木有。李世石九段固然厉害,可人类毕竟是动物,机器软件程序是无休止的工作,这一点也是客观因素了。

AlphaGo依靠精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合,以及可以通过左右互搏提高自己的水平,这个真的是有的恐怖了有木有。李世石九段固然厉害,可人类毕竟是动物,机器软件程序是无休止的工作,这一点也是客观因素了。比赛已经结束了,李世石一比四不敌alphago。

有一种观点人为,只要下AlphaGo棋谱中所未记载的招数就能获胜,哪怕这些下法根本不符合围棋棋理。这种做法的可行性并不高。

AlphaGo并非是对人类棋手弈棋棋谱记忆后的简单再现,而是具备了一定模拟人类神经网络的“思考”能力,既不是像过去那样采用穷举法寻找最有选项,也不是复制棋谱中

所记载的定势或手筋。而是会对选择进行“思考”,删除那些胜率低的选择,并对具有高胜率的选项进行深度“思考”,最终从无数个落子的选择中基于自己的“思考”选择一个最优项。 因此,若是人类棋手想凭借下几步不符合围棋棋理,或未被棋谱记载的围棋下法,就轻而易举战胜AlphaGo的可能性并不高。因为AlphaGo是人工智能,而不是一台只会复制人类棋手招数的机器。

AlphaGo英文怎么读

阿尔法够
2023-08-12 17:31:424

击败李世石的alphago属于强人工智能还是机器思维

属于弱人工智能。按照人工智能的分类,AlphaGo还属于弱人工智能Artificial Narrow Intelligence (ANI)。AlphaGo利用深度学习学习人类棋谱,模拟人类来选择几个优势点,然后通过蒙特卡罗树搜索,穷举计算这几个点胜率,从中优选。本质上来说,它还是搜索求解,而且是在非常固定的规则与模式下进行。
2023-08-12 17:32:151

拥抱人工智能第三次浪潮:Alphago是如何战胜人类棋手的?

AlphaGo 是由 Google DeepMind 开发的一款能够下围棋的人工智能计算机程序。它在 2016 年以 4 : 1 的成绩战胜了世界顶级棋手李世石,引领了人工智能的第三次浪潮。AlphaGo 可以战胜人类棋手主要归功于以下两点:深度神经网络学习: AlphaGo 首先通过大量的围棋数据和人类棋谱进行学习,形成自己的围棋知识库。它使用了深度神经网络的算法,自动学习感知棋局的特征,并且通过强化学习算法,自我完善,不断优化自身的决策策略。蒙特卡罗树搜索算法: AlphaGo 在进行下棋决策时,采用了蒙特卡罗树搜索算法。简单来说,就是对目前的棋局进行大量的模拟和尝试,并且根据已经学习到的知识和策略进行决策选择。这个过程重复进行,直到得到最优解。这种方法可以避免遇到局限性很高的固定模式,同时也充分考虑了要与对手的下棋思维彼此博弈的策略。当然,AlphaGo的胜利其实也代表了人工智能技术的一种里程碑式的突破,为人工智能的发展开辟了新的境界。
2023-08-12 17:32:221

基于人工智能的alphago是什么领域的机器人

人工智能应用领域。Alphago属于人工智能应用领域中的计算机博弈,所以基于人工智能的alphago是人工智能应用领域的机器人。AlphaGo的中文名:阿尔法围棋,实质:是一个人工智能机器人。
2023-08-12 17:32:311

alphago为什么会下象棋

alphago导入了上千个职业选手对弈的棋谱,使得自己有了一个基础的下棋策略会下象棋。根据相关信息查询显示,AlphaGo就和一个受过系统训练的围棋少年一样。然而这和职业选手的区别还是很大。这也就是所谓的「Google没有顶尖的棋手为什么能开发出顶尖的围棋机器人」按照一般常理,AlphaGo应该一段一段地和人挑战,越发提高自己能力。然而AlphaGo不是这么做的,它选择和自己对弈。两台AlphaGo来对弈,将对弈的结果调优自己的网络。这个听起来很奇怪,为什么两个下得都不怎么样的棋手一起下棋,棋艺能那么快提升呢因为它一天能和自己下上百万盘棋,它可以把自己分身成几万份跑在几万台电脑上,以及可以昼夜不停也不会过劳死,而这是任何一个人类都做不到的。AlphaGo的开发人员说,他曾在早期能下赢AlphaGo,而很快,AlphaGo的水平就远超了他。所以AlphaGo得到了飞速的提升。仅仅五六个月,AlphaGo就能从战胜欧洲棋王挑战到世界顶尖选手的水平了。
2023-08-12 17:32:381

怎么看待AlphaGo战胜李世石

偶然
2023-08-12 17:32:465

alphago属于哪个流派

谷欧的AlphaGo综合了3种算出卖现各属于3个流派,分别是:符号主义流派的蒙特卡洛枚索树算廉、克揍主义流飒的人工神经网络滦盛学习算出行为圭义流派的务化学习鼻出。
2023-08-12 17:33:272

AlphaGo到底是怎么赢的

它有一种学习的功能,和别人下棋会学到别人下棋的方法。其实阿尔法狗对战柯杰就相当于在网上和阿尔法狗下过的千千万万的人一起对战柯杰
2023-08-12 17:33:372

AlphaGo 为什么能战胜人类

因为它有更大的储存空间,和快速准确的计算能力。它他储存了近几十年人类棋手的各种围棋下法,它能根据当前的情况快速的搜索最适合的下法。而人类就算背熟了所有的围棋下法,在比赛的时候,也会因身体或其他因素不能准确的找出适合的答案。所以阿法狗能够战胜人类棋手就不奇怪了。但人类拥有创造能力,可以创造一种全新的方法,这是人工智能还无法达到的。所以,还不用担心人工智能能超越人类。
2023-08-12 17:33:462

为何说AlphaGo不是狗而是人类的老师?

根据报道,几年前当计算机击败人类国际象棋顶尖高手时,就有很多专家表态,说计算机或人工智能不可能战胜人类围棋顶尖高手,因为围棋的变化比国际象棋多无数倍,考虑到布局、弃子、打劫、循环劫等变数,围棋的变化可谓无穷无尽,因此,依赖既定程序和数据记忆的计算机或人工智能,难以战胜具有主观能动性和随机应变能力的人类围棋高手。AlphaGo中文翻译名叫做“阿尔法狗”,这个中文名听起来有几分亲切,此番“人狗大战”开战之前,柯洁曾豪气万丈地表示,要代表人类打败这只狗。在三打两胜制中已然落败的柯洁,也不敢再说大话,而是改口称AlphaGo为“上帝”了。一向狂傲的聂卫平,这次面对“阿尔法狗”也变得谦逊了,开始称其为“老师”。当AlphaGo对柯洁第二局下出“并”的妙手时,聂卫平感叹,“阿老师的招太牛了,这个并我下辈子都想不到。柯洁想赢估计只能靠找到bug,或者我们派人去拔个电源什么的。”有专家表示称,在这几次“人狗大战”中,AlphaGo的一些行棋之术,也体现了某种随机应变的“创造性”,它的不少下法,是此前人类棋手未用过的。因此,我建议人类别把AlphaGo当成一只简单的狗,而应该尊其为老师。目前看来,对计算机或人工智能心存敬畏,不是坏事。
2023-08-12 17:34:051

alphago战胜了人类世界围棋冠军是哪一年

2016年3月AlphaGo在围棋人机大战中击败围棋世界冠军李世石。2016年3月9日,围棋人机大战首局在韩国首尔四季酒店打响。赛前猜先阿尔法围棋猜错,李世石选择黑棋,率先展开布局。黑棋布局走出新型,阿尔法应对不佳,出现失误。李世石抓住电脑布局不擅长应对新型的弱点获得不错的局面。围棋的胜负关键往往是中盘阶段,阿尔法围棋之后的下法变得强硬,双方展开接触战。李世石抓住机会,围住一块大空,在大局上抢得先机。就在观战棋手都认为李世石占优的情况下,他却放出了非常业余的手法,瞬间使微弱的优势化为乌有,还变成了劣势。进入官子,阿尔法围棋根本不犯一点错误,等阿尔法围棋下了186手,李世石算清后投子认输。比赛规程李世石与阿尔法围棋的围棋人机大战为五番棋挑战,但无论比分如何将下满五局,比赛采用中国围棋规则,执黑一方贴3又3/4子(即7.5目),各方用时为2小时,3次60秒的读秒机会。五局比赛分别于2016年3月9日、3月10日、3月12日、3月13日和3月15日在韩国首尔钟路区四季酒店进行。
2023-08-12 17:34:321

alphago开发团队多少人

截止至2022年12月28日alphago开发团队有140名员工。根据查询相关公开信息显示:AlphaGo是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用价值网络去计算局面,用策略网络选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手,2016年3月对战世界围棋冠军、职业九段选手李世石。
2023-08-12 17:34:501

AlphaGo 的“前世今生”

1996 年 2 月,在美国费城举行了一项别开生面的国际象棋比赛,报名参加比赛者包括了“深蓝”计算机 和 当时世界棋王 卡斯帕罗夫。 比赛最后一天,世界棋王卡斯帕罗夫对垒“深蓝”计算机。在这场人机对弈的6局比赛中,棋王卡斯帕罗夫以 4:2 战胜计算机“深蓝”,获得 40 万美元高额奖金。人胜计算机,首次国际象棋人机大战落下帷幕。比赛在 2 月 17 日结束。其後研究小组把深蓝加以改良。 次年,也就是1997 年 5 月 11 日,在人与计算机之间挑战赛的历史上可以说是历史性的一天。 计算机在正常时限的比赛中首次击败了等级分排名世界第一的棋手。加里·卡斯帕罗夫以 2.5:3.5 (1胜2负3平)输给 IBM 的计算机程序 “深蓝”。机器的胜利标志着国际象棋历史的新时代。 其中,比赛的转折点出现在第二局。 卡斯帕罗夫第一局获胜,感觉很好。但在第二局中,双方却打得不可开交。在第 36 步棋时,电脑的做法让卡斯帕罗夫不寒而栗。在当时的情况下,几乎所有顶尖国际象棋程序都会攻击卡斯帕罗夫暴露在外的皇后,但深蓝却走出了一步更为狡猾的棋,最终的效果也更好。这令卡斯帕罗夫对电脑另眼相看。 对卡斯帕罗夫和所有旁观者来说,深蓝突然不再像电脑一样下棋(它顶住诱惑,没有攻击皇后),反而采取了只有最聪明的人类大师级选手才有可能使用的策略。通过在卡斯帕罗夫面前深藏不漏,IBM成功让人类低估了它的水平。 他的斗志和体力在随后3局被拖垮,在决胜局中,仅 19 步就宣布放弃。 后来,IBM拒绝了卡斯帕罗夫的再战请求,拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平,却无法找“深蓝”“复仇”,留下永久的遗憾。 在今天看来,“深蓝”还算不上智能,它主要依靠强大的计算能力穷举所有路数来选择最佳策略:“深蓝”靠硬算可以预判 12 步,卡斯帕罗夫可以预判 10 步,两者高下立现。 在 AlphaGo 诞生之前,计算机在除围棋之外,几乎所有棋类游戏上战胜了人类,唯独围棋没有被攻克,为什么呢? 围棋游戏只有两个非常简单的规则,而其复杂性却是难以想象的,一共有 10 的 170 次方种可能性,这个数字之大,以至于用当今世界最强大的计算系统,算几十年也算不完,是没有办法穷举出围棋所有的可能结果的。所以,计算机需要一种更加聪明的方法。 直到 2016 年,AlphaGo 第一版发表在了 Nature 自然杂志上,这可是牛逼得不要不要的期刊。 而刚过去一年,Google DeepMind 又在 Nature 上发表了一篇 AlphaGo 的改进版——AlphaGo Zero,同样的围棋 AI,竟然在自然杂志上发了两次!可见他们的实力! AlphaGo 战胜过欧洲冠军樊麾,韩国九段棋手李世石,而后又赢了世界冠军柯洁,种种迹象表明,人类已经失守最拿手的围棋了。这些围棋高手一个个都表示 AlphaGo 走到了他们想不到的地方,战胜了人类的生物极限。那 AlphaGo 又是怎么在策略上战胜人类的呢?很简单,它会做计划。 阿尔法狗(AlphaGo)是通过两个不同神经网络合作来改进下棋。这就像有两个导师,每个都是多层神经网络。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。 这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。 导师1号:策略网络(Policy network) AlphaGo 的第一个神经网络大脑是“策略网络(Policy Network)”,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。 AlphaGo 团队首先利用几万局专业棋手对局的棋谱来训练系统,得到初步的“策略网络”。训练“策略网络”时,采用“深度学习”算法,基于全局特征和深度卷积网络 (CNN) 来训练,其主要作用是给定当前盘面状态作为输入,输出下一步棋在棋盘其它空地上的落子概率。 接下来,AlphaGo 采用左右互搏的模式,不同版本的 AlphaGo 相互之间下了 3000 万盘棋,利用人工智能中的“深度增强学习”算法,利用每盘棋的胜负来学习,不断优化和升级“策略网络”,同时建立了一个可以对当前局面估计白棋和黑棋胜率的“价值网络”。 导师2号:价值网络(Value network) AlphaGo 的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这个局面评估器就是 “价值网络(Value Network)” ,通过整体局面判断来辅助落子选择器。 然后,AlphaGo 通过吸收人类 几千年 来优秀的棋谱,不断学习优化 策略网络 和 价值网络,从而战胜了欧洲冠军樊麾,韩国九段棋手李世石,而后又赢了世界冠军柯洁。 实际对局时,AlphaGo 通过“蒙特卡罗树搜索”来管理整个对弈的搜索过程。 首先,通过“策略网络”,AlphaGo 可以优先搜索本方最有可能落子的点(通常低于10个)。对每种可能再通过“估值网络”评估胜率,分析需要更进一步展开搜索和演算的局面。综合这几种工具,辅以超级强大的并行运算能力,AlphaGo 在推演棋局变化和寻找妙招方面的能力,已经远超人类棋手。 根据资料,最高配置的 AlphaGo 分布式版本,配置了 1920 个 CPU 和 280 个 GPU,同时可以跑 64 个搜索线程,这样的计算速度就好像有几十个九段高手同时在想棋,还有几十个三段棋手帮着把一些难以判断的局面直接下到最后,拿出结论,某一位人类棋手要与对抗,确实难以企及。 但是,这并不是重点。 终于说到重点了~~ Zero 英文意思是:零。除了围棋最基本规则(棋盘的几何学定义,轮流落子规则,终局输赢计算,打劫等),它就是一张白纸。放弃参考任何人类棋谱,完全自我学习。 如果你和一个有人类老师的 AlphaGo 交手,那可能还会在它背后看到人类下棋的影子。但是 AlphaGo Zero,完全是一个无师自通的家伙,和它下棋,你可能闻到很浓烈的机械味。但从另一方面想,这样的 AlphaGo 打破了数千年来人类下棋思维的限制,探索了人类想不到的下棋境界,学会了一个崭新的下棋方式。 仅仅经过 3 天的训练后,这套系统已经可以击败 AlphaGo Lee,也就是击败韩国顶尖棋手李世石的那套系统,而且比分高达100:0。经过 40 天训练后,它总计运行了大约 2900 万次自我对弈,使得 AlphaGo Zero 击败 AlphaGo Master,也就是击败世界冠军柯洁的系统,比分为 89:11。要知道职业围棋选手一生中的正式比赛也就一千多局, 而 AlphaGo Zero 却进行了 2900 万次对局。 在技术层面来说,AlphaGo Zero 使用的不再是之前提到的两套神经网络系统,而是将它们融合成一个神经网络系统,这样做能更有效利用资源,学习效果更好。其关键在于采用了新的 Reinforcement Learning(强化学习) ,并给该算法带了新的发展。 而且,它不再仅仅使用 GPU,转而添加了自家的专门为机器学习打造的 TPU,而且使用的硬件个数也在逐步降低,然而学习的效果却不断上升。在短短 40 天没有老师教的训练中,AlphaGo Zero 超越了他所有的前辈,在这个时候,我相信它真正做到了在围棋场上无人能敌了。 最后,正如 AlphaGo 之父 David Silver 所说,一个无师自通 AlphaGo 的产生,并不仅仅意味着我们的 AI 能在围棋场上战胜人类,放眼未来,它还意味着,在更多方面,我们能用这样的 AI 创造出更多人类历史上的新篇章。 围棋场上,无论谁赢,最终获胜的都是人类自己。
2023-08-12 17:34:561

AlphaGo凭什么再胜世界围棋第一人

在13日结束的AlphaGo与李世石五番棋对决中的第四局,李世石胜出。连败三局之后,人类终于扳回一局。但这场胜利来得有些迟,AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战,人们最想追问的是,AlphaGo为什么能战胜人类?赛前,无论是职业棋手还是科技界,并不看好机器胜利机器赢了人类,这个结果让无数人感到吃惊与意外。在这场比赛开始前,很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为:电脑和人下围棋,百分之百是人赢。而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好,并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯(Demis Hassabis)在第二场比赛结束后的发言可以看出,他当时认为 AlphaGo 的胜利难以置信。在与李世石对弈前,AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈,以 5:0 战胜了樊麾,而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段,李世石为职业九段。围棋界公认,这两人的围棋水平为:樊麾是踏在了职业门槛,而李世石则是职业顶尖,前围棋世界第一人,代表了人类围棋最高水平。但仅仅过了 5 个月,AlphaGo 在五番棋中以 3:0 战胜了李世石,并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。很多关注人机大战的人都想要知道一个问题:Google是怎么设计AlphaGo的?比如,AlphaGo 的运行机理是什么?进入自我学习的阶段之后,谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升?还是完全凭借其自身的学习能力来提升?最近两天 ,DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问,但德米什 · 哈萨比斯没有进行回应。在对外公布的所有信息中,包括其在《Nature》上发表过的两篇论文中,都只提到了他们的 AlphaGo 能够做什么,都没有透露 AlphaGo 的运行机制是什么,即 AlphaGo 到底是怎么做到的。德米什 · 哈萨比斯仅透露,就 AlphaGo 的对弈水平而言,他们的神经网络训练算法远比它使用的那些硬件重要得多。此外,这次人机对战所消耗的计算量差不多与 AlphaGo 和樊辉对弈中消耗的相当,使用的是分布式方案搜寻,能有效节省决策用时。人工智能战胜人类,为何引起这么多关注?围棋这项发源于中国的有两千年历史的智力游戏,曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是:棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点,在围棋中简称为 “点”。对局双方各执一色棋子,轮流下子,最后谁占的点多,谁就赢。虽然围棋规则简单,但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段,却是无穷无尽的。聂卫平曾解释了其中的原因,围棋棋盘上有 361 个点,其理论变化值是 361 阶乘,阶乘到底本身就是一个无限大的数,无法表达。比如,棋手在下第一手时有 361 个点可以选,下第二手有 360 个点,第三手是 359,361×360×359×……2×1,即 361 阶乘。(有数据统计,结果约是 1.43 乘以 10 的 768 次方。)这个数字有多大呢?Google 灵感来源于一个单词 Googol,以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”,这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量,也不过是 10 的 80 次方。同时,在围棋对弈中,还包含着很多变化:打二还一,打三还一,打劫,倒扑等,每一种变化都会衍生出无数的变化。在下棋过程中,棋手需要有一种判断。而此前,电脑被认为无法承担这种判断,因为这不是计算就能够完成的。AlphaGo 是怎么做到的?AlphaGo 结合了 3 大块技术:蒙特卡洛树搜索 (MCTS) 是大框架,这也是很多博弈 AI 都会用的算法;强化学习 (RL) 是学习方法,用来提升 AI 的实力;深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。我们在这里用比较通俗的语言来解释一下:棋盘上有 361 个点,AlphaGo 会进行一层层分析:下在哪个点或区域是有利的?这时它会参考输入的过往的棋谱,对局和模拟,进行选择、推演,并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值,选择出一个对“赢”足够优的解。围棋?AI 能超越人类的还有很多.AlphaGo 的胜利,引发了大讨论。因为人类开始面临着一个前所未有的情况:人类造出了,在智能的某个点上,超越自己的东西。 通过黑白纹枰上的胜利,AI 已经在人类的智力围墙打开了第一个缺口,但这绝非最后一个。在过往漫长的岁月里,机器都只是人类劳动的一种替代与工具,无论飞机、汽车、起重机还是电子计算机、互联网,尽管看上去有着无限的能力,但却从未侵入由人类大脑所把持的领域——“创造”。而随着 AlphaGo 的胜利,这一天或许将成为历史。实际上,过去几天,这台人工智能在围棋盘上发挥的创造能力,已经超越了人类两千年于此道上积累的智慧结晶。如果我们检索人类的“资源库”,会发现,复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态,发生改变。很多从事创作、设计、推演、归纳的工作,都将被 AI 部分替代。如果将思路拓展出去,可以应用在音乐的创作,等其他类似于元素组合式的创造,从某中意义上说,它能够击败围棋的顶尖高手,也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。按照德米什 · 哈萨比斯的设想,人工智能未来的主要用途将是医疗、智能助理和机器人。而人们通过这次比赛担忧的是,如果人工智能拥有创造性的思维,加上远超出人类的运算能力,是否有一天会统治人类。就像网友评论里说的段子一样,“第四局AlphaGo输了,是不是AlphaGo故意输的?细思极恐”。
2023-08-12 17:35:031

完胜人类后AlphaGo为何要从棋坛退役?

根据报道,在5月27日“人机大战” 第三场比赛中,柯洁由于状态不佳,被 AlphaGo 拖入缠斗之后无奈宣布放弃。最终,AlphaGo 以 3:0 的成绩赢下本次乌镇围棋峰会比赛。对于 AlphaGo 的表现,“棋圣” 聂卫平现场点评:“人类目前最高也就九段,AlphaGo 至少二十段。”随后,AlphaGo 之父、DeepMind 创始人 Demis Hassabis 就公布了一个不太好的消息:“乌镇围棋峰会是它(AlphaGo)作为一个竞技程序所能企及的巅峰。因此,此次峰会将是 AlphaGo 参加的最后一场赛事”,而这也意味着 AlphaGo 将从棋坛 “退役”。但是这并不意味着 AlphaGo 将永远退出竞技舞台。去年,DeepMind 就已经宣布《星际争霸 2》将会是 AlphaGo 在围棋想要征服的下一个目标。在去年 11 月份,DeepMind 还曾与暴雪公司联手打造一款免费的 API,来帮助研究人员测试《星际争霸 2》人工智能算法。
2023-08-12 17:35:101

AlphaGo是如何下棋的,它真的能“理解”围棋吗?

看你对理解的定义,人类对人工智能最经典判据叫做图灵判据,即你与人工智能对话,你不能判断他是否是机器,即为一个成功的人工智能,现在alpha go可以说在围棋领域已经实现了图灵判据,所以,在围棋领域,它已经成功了。关于是否理解,现alpha go已经完成人类思维过程中的,学习(记忆),理解,运用,即把学到的知识分析后,重新组合使用,但如果按照很多人所体会的天人之道等,哲学内容。这就属于抽象理解,alpha go肯定没有完成,但这不妨碍,它已经理解围棋棋路
2023-08-12 17:35:402

关于AlphaGo的一些错误说法

最近看了一些关于alphago围棋对弈的一些人工智能的文章,尤其是美国人工智能方面教授的文章,发现此前媒体宣传的东西几乎都是错的,都是夸大了alpha狗。我做了一个阅读心得摘要。首先是对媒体错误宣传的更正:1.alphago可以说里程碑式开创了历史,但是他并没有作出任何非常创新的技术,而deep mind只是将早已经存在的一些人工智能技术(尤其是机器辨认图片技术运用到下棋上)之前没有人想过能这样做,这种尝试是一种创新。2.alphago并没有真正的棋感,实际也不懂得思考并作出策略,围棋解说把alphago当人来看待是错误的。alpha只是不停问自己我下这一步我胜率提高多少。3.alphago并没有强大学习能力,达到现在棋力是基于接近1亿次棋局的模仿和推测出来的,一开始alphago只学习了16万棋局时它的棋力很弱。他不但比人学习效率差而且比马戏团的动物学习效率更差。所以说跟李对局每一局都在进步是不可能的,一局的经验对alpha go没什么影响。4.alphago其实也是基于蛮力穷举下法,只不过运用新的机器学习方法。穷举法和机器学习不矛盾5.之前看到文章说alpha速度没深蓝快,其实alpha是深蓝的5万倍。今天用的iPhone6s计算能力都是深蓝的几十倍。6.说人脑计算速度慢是错误的,和计算机计算速度相对应的应该是人脑神经元计算速度,保守估计人脑计算速度是每秒1000万亿次,计算能力是深蓝的10万倍。7.alpha并不是完全学习的,首先底层需要人编程围棋规则,其次基础的下期原则也是人为输入的简单总结一下阅读心得:首先包括alpha围棋程序和深蓝的象棋都是蛮力搜索法。也就是1.考虑所有未来可能变化,2.计算走法未来多少步的胜率,3.选择走法。但是围棋每走一步比国际象棋变化更大,步数更多,可能变化种类超过宇宙原子总和。其实这对于象棋也是如此。深蓝雇佣大量职业象棋选手设定一个积分法,比如一个兵值多少分,吃对手一个车胜率提升多少,这个评分体系很准确,深蓝思考范围被压缩成十几步。但是围棋无法如此评估,之前围棋程序是简单的人手输入,见到什么情况如何走,所以很死板。这些程序棋力大概是400。2006年一种叫做蒙特卡洛树的搜索法被发明,它使用概率模拟方法(类似模拟投掷骰子)只需要判断终盘胜负,弥补了围棋不能设定确定走法函数的缺陷。(alpha go也是使用蒙特卡洛树方法)但是这方法要展开到终盘计算量太大,所以需要让围棋专家协助制定行棋规则,减少计算量。此方法可使人工智能棋力提升到业余5段。但是十年来电脑棋力进展令人悲观,直到alphago。它在此基础上引入深度人工网络。神经网络已经发明50年,适合编写一些不直观因果关系的事物,并且软件可以自主学习调整。但是编程太难,加上以前计算能力问题一直不受重视。6年前开始,技术上能达到10层神经元,神经网络开始兴起。结合大数据和云计算技术,神经网络开始吃香。图像处理和人脸识别这类程序很难直观的由编程员编程,神经网络在此有用武之地,其中深度卷积网络技术称霸。alpha狗团队创新之处在于意识到可以将图像识别的这项技术用于下棋。alpha狗团队将神经网络升级到13层,预测人类棋手走法。首先它学习了围棋对战平台的3千万业余高段位的对局记录,作为让alpha狗猜人类走法的正确答案。也就是说alpha一开始是在模仿业余高手平均玩法。同时团队人工输入围棋知识。alpha是神经网络加手工编程混合物。这个预测人类玩法被叫做策略网络,此时alpha叫做rp版。根据alpha狗团队的论文把策略网络加入业余3段棋力的围棋程序,其棋力能达到业余6段。棋力提高950分达到2600(棋力分每相差230分双方5局三胜比赛的胜率为高分者95%胜率)此时alpha已经成为世界最强围棋程序。为了减少计算量,alpha狗使用一个叫价值网络的深层卷积网络作为评估函数,使用alpha的预测结果和实际展开结果的平均值作为胜率参考信息。加入此功能的alpha狗叫做完整版。其棋力提高了450分。达到3100。(大家要知道棋力相差500的选手之间,棋力低者想赢一盘棋都很难的,相差1000的话,棋力低者胜率几乎为0)首先刚刚入门只懂得规则的玩家棋力是0。手写下棋规则类围棋程序的棋力大概是400多。也就是程序是当对手下什么子,程序应该怎么走,这种纯靠手工编程软件的棋力。业余棋手最低级别(1段)的棋力是1000左右。加入神经网络的alpha go棋力是1500。相当于业余4段。此时的aloha go也是程序规则软件,只不过靠神经网络训练加入围棋知识而已。r版alpha go棋力1700。相当于业余5段。此时alpha go加入蒙特卡洛树搜索功能,但是主要靠手写程序为基础。和r版alpha go类似的程序zen棋力是2200。相当于业余7段。rp版的alpha go棋力是2700。和r版相比rp版的改进是在手工编程最基础的围棋策略基础上,加入“策略网络”该功能是一个预测对手落子位置的神经网络。因此alpha go棋力大增接近1000棋力。已经成为世界最强围棋软件。这个棋力大概是最低级别的职业选手(职业1段)的棋力。2015年下半年被alpha go横扫的欧洲冠军樊麾的棋力是2900左右。相当于职业2段和3段之间水平。完整版alpha go的棋力是3100多(2015年底时)。这个版本alpha go比之前增加了一个“价值网络”的深层卷积网络DCNN。他可以在不将牌局演算到终局就评估出双方胜率也就是上一篇文章所说的大幅度减化了计算。这种技术本来是用在识别图像技术上的。此时李世石棋力是3500多。相当于超出最高段位(职业9段)水平。柯洁的棋力是3600左右。其实宣布挑战李世石时alpha go棋力落后李400左右。它是通过自己和自己大量对局来提升棋力的。(战胜樊麾时它是通过观摩人类业余高段位对战历史数据学习,为了击败更强对手只能向更高技术的选手学习,就是自己了)。在不断对局中程序棋力不断提高,而提高的棋力自我对阵时产生更高水平的下棋数据。虽然凌哥没看到战胜李世石时alpha go的棋力但是我简单算一下推测出2016年3月战胜李时alpha go棋力大概是3800左右。(因为差230分五局三胜95%胜率可以推算单局胜率80%再低一些。李是3530左右棋力)所以当时柯洁已经不是alpha go的对手了。现在alpha go挑战各位围棋高手60连胜(唯一一次平局是人类棋手掉线)至于现在棋力应该是没办法评估吧。因为一场都不输的话根本不知道棋力是多少。按照棋力计算方法应该是棋力无限大了,也就是七龙珠漫画里面的战斗力爆表了。至少输一场才能估算出其实际棋力。其他:说到alpha没有期感,和人类下棋不一样。只要是因为人类学习下棋,是通过总结棋局规则和下法,分析因果关系和其中逻辑关系的,而alpha go只是推算走这一步它的胜率提高多少(这方面和深蓝没区别只是评估方式不同)它并不是真的有智慧懂得各种谋略。alpha go学习方式只是像训练动物一样。走对了给予奖赏鼓励以后以更高概率走这步,走错了就惩罚。而且这个效率很低,其实它的高水平是通过每天学习普通职业选手一辈子也不止的时间来学习下棋得来的。而且这个学习过程“没有高层思维和概念”,只是一个搜索过程。上文说道alpha go学习效率很低。因为alpha go学习了3000万盘棋局时面对新局面应变能力很差,分析发现这些棋局很多都是冗余的只相当于16万棋局。而几十万局棋对训练alpha go是不够的,它需要千万级别的棋局训练。所以电视里职业棋手解说说alpha go在每局都从李世石身上学到新技能是不可能的,一两局对alpha go是没用的。而李世石反而是从alpha go身上学到东西利用创新下法战胜alpha go。人类这种能力是人工智能不具备的。人工智能专家认为现在人工智能其实并不是真正的智能。alpha go只是下棋能力强的软件,IBM的沃森只是智力答题能力强的机器。真正的人工智能是让一个白板人工智能机器见到围棋,自己学习下棋规则,自己通过推理推断怎么下棋。(现在的alpha go的围棋规则和基础下棋策略都是人手编程的)deep mind致力于开发真正的人工智能程序。近期目标是玩几百种游戏都能战胜人类。这是向真正人工智能迈步。
2023-08-12 17:36:051

后AlphaGo时代崭露头角的围棋al都有什么?

绝艺,星阵,凤凰等
2023-08-12 17:36:371

AlphaGo是什么 谷歌AlphaGo全解读

AlphaGo一般指阿尔法围棋阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。其主要工作原理是“深度学习”。阿尔法围棋(AlphaGo)是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
2023-08-12 17:36:541

为什么alphago退役 不再参加任何比赛

在柯洁和阿尔法狗的最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)说:“本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。”意思就是说AlphaGo能够击败世界第一的柯洁,以后基本上也不可能有人类能够战胜它了,果断宣布退役,只能说阿尔法狗深藏功与名了。
2023-08-12 17:37:142

如何评价柯洁 alphago 第二局

柯洁经历了英雄般的战斗后,依然第二局输给AlphaGo。最有价值的信息可能来自AlphaGo之父萨比斯,中盘阶段他评论说:“不可思议,根据AlphaGo的评估,柯洁现在下得很完美。”赛后萨比斯则评论:“这是一场惊心动魄的令人惊奇的比赛,柯洁几乎把AlphaGo逼到了极限。”柯洁今天的最大收获是测出阿法狗的真实水平。期望这次比赛能够验证。当然它有两个前提条件,一是柯洁把最好水平发挥出来,二是AlphaGo能够经受真正的考验,而不是表面看它只赢一两个子,实际上后台胜率显示根本没有机会。前天的第一局,AlphaGo赢了1.5目。这是一个很小的差距,但柯洁下得谈不上多出色,因为从头到尾他基本没什么机会。AlphaGo并不是一个赌徒,能赢100目绝不赢99;它是根据胜率估算来行棋的,如果赢1目而它认为胜率是100%,就没必要去下赢100目而胜率只有99%的棋。所以,第一局柯洁远远没有逼出AlphaGo的真正实力。昨天AlphaGo方面的消息,认为这次虽然只是一个单机版,但棋力已经比去年赢李世石的时候提高了三子。这是一个挺吓人的消息,因为它会让人类棋手觉得,目前这个版本至少比人类强三子以上。老实讲这挺绝望的,三子以上,四子。那等于彻底宣布人类棋手跟AlphaGo已经是天壤之别。知道,面对一个可以让四子的对手,这是职业和业余的差距,比赛已经失去意义,准确地说那叫戏耍。它可以只赢1目甚至半目,但不说明任何问题,就像柯洁也可以让只输半目,但那又能说明什么。难道会跑大街上喊,快看,柯洁只赢了半目。谁都知道,柯洁想怎么赢就怎么赢,半目和100目没差别。今天的比赛,由于“几乎把AlphaGo逼到了极限”,虽然不是让子棋,但基本可以猜出,在人类棋手高水平发挥的前提下,目前AlphaGo让不到人类三子,可能是二子或者略多。挂盘讲解的李世石也做出这种判断:AlphaGo并没有提升三子的实力,估计大概有二子。至此,本次比赛人类棋手的目标或者说心愿已经达到:测试出AlphaGo的真正实力。否则,AlphaGo就永远是上帝般的存在。知道它强,但不知道它到底多强,所以它就是上帝。知道,没有上帝。如果由于无法评测AI(人工智能)的水平,而把它视为上帝一样的存在,这不是人类进化或者说发展的方向。等于把命运交给未知,哪怕这个未知是人类创造出来的,也有理由疑虑甚至恐惧。所以要感谢柯杰,不愧围棋第一人,他今天的勇气和表现,至少让暂时可以从外部角度了解到AlphaGo的真实水平。这是比胜负更重要的事情。
2023-08-12 17:37:291

AlphaGo在和李世石的第四局中故意输棋的可能性到底多大

比赛结束,alphago四比一完胜李世石,仅胜利的一局还可能是谷歌为了让alphago有世界排名而故意输的一局,因为如果一个棋手一直连胜,是没有世界排名的,输了一局才有排名,按照官方发布目前alphago排名世界第二,中国小将柯杰世界第一。这种可能性很大。谷歌非常有谋略,先让阿尔法狗连赢三次,奠定胜利的事实,展示人工智能的厉害!让人恐慌! 然后,谷歌让阿尔法狗输棋给李世石,以明白无误的方式告诉恐慌的人们:不要害怕,我们掌控着人工智能的! 如果人工智能把人逼上绝路,人工智能产业就会遭到人们的封杀! 谷歌输一局,缓和局面。 中日韩还有成千上万围棋学习者和相关从业人员,Google是商业公司,当然不会把事情做绝,肯定会考量这方面的因素。谷歌野心很大,制造了一种必须取胜的强大气场,同样让人印象深刻,这也营造出了商业噱头,这盘棋下的很大。
2023-08-12 17:37:361

为什么说这次的alphago属于真正的人工智能

人机对战更像人工智能一场科技秀虽然整场对弈还没有结束,但是目前的情况显然有些让人出乎意料。有人认为,这是围棋冠军的一个挫败,但却是人类文明的胜利。因为人类是一个善于发明工具去协助自己变得更强大的生物。但是,这场人机对弈似乎有点被神话的意味。事实上,虽然人类在围棋项目输了,但这从本质上讲,仅仅意味着人类单项竞技智慧的颓败,并不代表人工智能已经全面超越人类。甚至,仅仅就围棋这一单行竞技中,人工智能能够对人类提供的帮助也是有限的。在这场依旧正在进行中的人机博弈,结果依旧是难以预料的。但是不论最终结果如何,有一个事实是改变不了,那就是,围棋作为一项竞技项目,是有规则可寻的,而这些规则计算机的数据足够全面,其实也可以在这些数据的基础上找出规律,形成算法。而机器的算法早就已经超越了人类,即使是李世石处在围棋巅峰,其逻辑运算能力到了计算机面前也根本是难以逾越的。像之前的国际象棋早已经被计算机的逻辑运算完全打败,所以棋手都会和计算机下棋训练,如今看来,围棋这种人类竞技项目也难逃这种宿命。真正的人工智能首先要有真正的分析推理能力,能够协助人类去提高分析和决策效率。虽然有别于传统计算机穷举计算方式,“阿尔法狗”采用的是利用“价值网络”去计算局面,用“策略网络”去选择下子。但是,阿尔法狗依旧处于一个弱人工智能的水平。什么是弱人工智能?简单的说,所谓弱人工智能就是仅在单个领域比较牛的人工智能程序。比如我们熟悉的苹果Siri,就是一个会卖萌的弱人工智能程序。而阿尔法狗根据这个标准,依旧在这个范围以内。充其量,最多是人类围棋的陪练。而这场人际对决,本质上更像是谷歌的一场科技秀。
2023-08-12 17:37:461

运行围棋程序的alphago计算机属于

运行围棋程序的AlphaGO计算机属于第四代计算机。AlphaGo是2014年由谷歌旗下的DeepMind公司开发的一款人工智能围棋程序。它使用深度学习等技术,在完全自主学习的情况下实现对弈水平的逐步提升,并且在后续的博弈中,战绩卓著,影响巨大。与此同时,AlphaGo能在人机对弈和机器对弈中独占鳌头,这归功于包括蒙特卡洛树搜索、估值网络、策略网络等技术的融合运用。其中,后两者是一种多层CNN神经网络模型。得益于深度学习理论的发展,AlphaGo获得了更强的智能和不断的进步。
2023-08-12 17:37:551

如何看待谷歌AlphaGo首次战胜人类围棋高手

这是人工智能的一个里程碑,证明人工智能越来越先进了!
2023-08-12 17:38:022

柯洁vsalphago什么时候开始 柯洁对战alphago什么时间

柯洁vsalphago已经结束了。柯洁对alphago三战全负。2017年5月23日,柯洁执黑迎战谷歌AlphaGo,最终柯洁在收官阶段不敌AlphaGo,第一局以失败告终。2017年5月25日,人机大战三番棋第二局战罢,柯洁虽然发挥神勇,但因为中盘战斗劫材不利,中盘败北。AlphaGo2-0领先,已经赢得了三番棋的胜利。根据规则,第三局仍如期在27日举行。2017年5月27日,乌镇围棋峰会最后一天,也是万众瞩目的柯洁AlphaGo最后一场,面对AlphaGo,柯洁使出全身解数仍无济于事最终投子认负,本次人机大战最终以柯洁三连败告终。
2023-08-12 17:38:121

alphago是什么语言开发的

AlphaGo是使用C++和Python编写的。
2023-08-12 17:38:221

到底是什么让AlphaGo变得如此成功

AlphaGo这个系统主要由几个部分组成:走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1、走棋网络走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。2、快速走子那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。3、估值网络AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。4、蒙特卡罗树搜索这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。5、总结总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。
2023-08-12 17:38:351

alphago中的蒙特卡罗搜索树是怎样实现的

AlphaGo依靠精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合,以及可以通过左右互搏提高自己的水平,这个真的是有的恐怖了有木有。李世石九段固然厉害,可人类毕竟是动物,机器软件程序是无休止的工作,这一点也是客观因素了。AlphaGo依靠精确的专家评估系统(value network)、基于海量数据的深度神经网络(policy network),及传统的人工智能方法蒙特卡洛树搜索的组合,以及可以通过左右互搏提高自己的水平,这个真的是有的恐怖了有木有。李世石九段固然厉害,可人类毕竟是动物,机器软件程序是无休止的工作,这一点也是客观因素了。比赛已经结束了,李世石一比四不敌alphago。有一种观点人为,只要下AlphaGo棋谱中所未记载的招数就能获胜,哪怕这些下法根本不符合围棋棋理。这种做法的可行性并不高。AlphaGo并非是对人类棋手弈棋棋谱记忆后的简单再现,而是具备了一定模拟人类神经网络的“思考”能力,既不是像过去那样采用穷举法寻找最有选项,也不是复制棋谱中所记载的定势或手筋。而是会对选择进行“思考”,删除那些胜率低的选择,并对具有高胜率的选项进行深度“思考”,最终从无数个落子的选择中基于自己的“思考”选择一个最优项。 因此,若是人类棋手想凭借下几步不符合围棋棋理,或未被棋谱记载的围棋下法,就轻而易举战胜AlphaGo的可能性并不高。因为AlphaGo是人工智能,而不是一台只会复制人类棋手招数的机器。
2023-08-12 17:39:281

人机大战后柯洁是如何评论AlphaGo的?

根据报道,中国围棋峰会首局战罢,柯洁小负AlphaGo,赛后举行发布会。柯洁表示,布局也有备战和研究,开始也有针对性下法,下三三后又点角,这都是AlphaGo喜欢下的,但没想到AlphaGo应对非常好,很多招法我都没见过,包括那步刺(白50),让我很震惊,首先断完以后,他变得很厚,还有很多劫材,可以说是一石二鸟。真是太厉害了,我输得没什么脾气。柯洁表示AlphaGo确实下得太精彩,很多地方都值得我们去学习、探讨,思想和棋的理念,改变我们对棋的最初的看法,没有什么棋是不可以下的,可以大胆去创新,开拓自己的思维,去自由的下一盘棋。对于人工智能的改变,柯洁表示称感觉AlphaGo和去年判若两人,当时觉得他的棋很接近人,现在感觉越来越像围棋上帝。我希望尽全力去拼每一盘棋。很感谢有AlphaGo这样的对手,感谢DeepMind团队给我机会去下这三盘棋,也希望通过这次比赛让大家了解围棋这个好项目,给大家带来快乐。最后柯洁表示人工智能对棋的理解和判断远胜于我们,所以想赢只好通过找BUG,但真的很难。不过对自己永远要有信心。之前我发微博说,这可能是我与人工智能最后三盘棋,现在就只剩两盘棋了,这可能是我活到现在最难得的机会,我会尽全力去珍惜这次机会。
2023-08-12 17:39:351

如何评价柯洁和 AlphaGo 的第一盘棋

围棋已经有两千多年的历史,在漫长岁月的琢磨中,围棋理论不断进化,到达了很高的水准,AlphaGo的获胜,我们大可以解读于“青出于蓝”,毕竟是在人类围棋进化的主路径上又攀高峰。而AlphaGo2.0完全抛弃掉人类这两千年来进化的围棋经验,另寻他径,仅凭两台机器自我对弈中学习和进化,最终不仅赶超了人类进化的速度,还发展出一套截然不同的下棋方法,并且更加接近完美的状态,实现了对人类的碾压,重演了一部围棋的进化史,而且得出了与这两千年来不同的进化结果。这会给我们什么启示?如果跳出围棋的规则,类比看地球生命的进化:人类是从原始的有机物,到单细胞开始逐步变成灵长类动物,并且发展出超越其他一切生物的智慧。这条路径是唯一的么?人类的生命形态和最顶级的生命形态还有多大距离?AlphaGo告诉我们:我们还有极大的发展空间;AlphaGo2.0告诉我们:如果有合适的条件,完全可能有其他的生命进化路径,以及更不一样的进化结果。让我们欢呼人的智慧造就了AlphaGo,这也帮我们开了眼界,看到我们离最终的生命形态和智慧依然有遥远的距离。保持敬畏,坚定前行,终得圆满。
2023-08-12 17:40:121

alphago与李世石第四局比赛中,“神之一手”非常妙吗

执白后手出战的李世石在序盘阶段就将棋局引向自己熟悉的局面。不过,40手过后,白棋在盘面上稍稍吃亏。很多在观战室观赛的职业棋手都为李世石捏了一把汗。经过一番短兵相接,AlphaGo的黑棋在棋盘上方围出了一片空地,就在白棋似乎被逼入绝境时,李世石在第78手果断一“挖”,将白棋置于两枚黑棋之间,这手好棋瞬间把黑棋中腹空地内存在的隐患串联起来。白棋转危为安的同时,也让李世石找到了攻破黑棋包围圈的突破口。令人意想不到的是,此后5手棋,AlphaGo似乎陷入混乱之中,连出毫无意义的昏招。这让局势瞬间倒向白棋一方。经验丰富的李世石自然不会放过良机,很快确立较大领先优势。尽管此后AlphaGo并未轻易认输,但李世石每行一步都慎重思考,没有给对手留下翻盘的机会。最终,行至180手,AlphaGo投子认负。有很多人认为是谷歌为了让alphago有世界排名而故意输的一局,因为规定如果一个棋手一直连胜,是没有世界排名的,输了一局才有排名,按照官方发布目前alphago排名世界第二,中国小将柯杰世界第一。
2023-08-12 17:40:191

唯一在比赛中战胜过“阿尔法狗”的人类棋手是谁

李世石比赛结束,alphago四比一完胜李世石,仅胜利的一局也有很多人认为是谷歌为了让alphago有世界排名而故意输的一局,因为如果一个棋手一直连胜,是没有世界排名的,输了一局才有排名,按照官方发布目前alphago排名世界第二
2023-08-12 17:40:291

“AlphaGo”战胜围棋职业选手,这是计算机在()方面的应用。

“AlphaGo”战胜围棋职业选手,这是计算机在()方面的应用。 A.计算机辅助设计B.数据处理C.人工智能D.多媒体技术正确答案:人工智能
2023-08-12 17:40:421

AlphaGo 是怎么下棋的?

本来其实不想写这个的,但是看到很多网友以及一些围棋职业选手提出了一些疑问,比如「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人?」还有「机械为什么可以在如此直觉主导的游戏中战胜人类?」。这些问题事实上在人工智能领域已经有很多理论来做解释。而且这些理论也并不是 Google 提出的。AlphaGo 所使用的理论大多还是十余年前左右的论文的一些成果。在此之前,使用了这些理论开发出来的人工智能其实已经在 2006 年就已经在 9x9 的小棋盘上战胜周俊勋九段,之后在 2013 年 CrazyStone 程序就已经在让四子前提下战胜过石田芳夫九段,而就在去年,Facebook 的围棋机器人在不让子的前提下,胜过职业选手。至于之前「前百度深度学习研究院」的吴韧所开发的异构神机也使用的是类似的理论,也在前几天战胜过职业棋手。 这些方法上,AlphaGo 并无太大创新,很大程度上是 Google 团队实现得相对完善以及训练程度更好,以及人工智能算法的实现和调参存在很大的偶然因素。那么究竟是什么方法让机械拥有了和人一样直觉,而不是简单的机械化的思考。这事我们还是要从头讲起。 早在 1996 年,IBM 的深蓝计算机就战胜了国际象棋世界名将加里·卡斯帕罗夫。但象棋有一个特点,那就是每一步下的选择是相对非常有限的,最多也就十几种可能。哪怕是通过最最暴力的搜索方法,把每种都跑一遍,搜索几十步内的最优解。虽然这个方法随着搜索深度是指数级增长的,但事实上由于底数比饺小,依靠强大的算力还是可以解决的。而深蓝计算机正是这么一台拥有强大算力的超级计算机。 然而在围棋上,这样就不行了,因为围棋每一步都有上百种选择,如此大的底数纯粹的暴力就显然无法满足了。至少硬件的发展并非每年成百倍成百倍地快速增长的。同样的方法,显然是不适合使用在围棋上的。 在 2002 年之前,人们长期研究一个可以通过计算静态地分析出每一子的价值出来。然而这个方法的发展一直很慢。直到人们试图尝试一种动态评估一个博弈的一种方法,这就是靠 猜 。这个方法被称为蒙特卡洛搜索树,其前身是非常著名的上世纪曼哈顿计划期间由乌拉姆和冯·诺依曼提出的 蒙特卡洛方法 。 如果我们想知道圆周率的值,我们如何利用猜的方法来猜出圆周率呢?我们只需要在一个方形中随机而均匀地扔飞镖,数一下,多少个飞镖扔在了以方形边长为直径的圆里,多少扔在了外面,根据圆的面积公式和方形的面积公式就能把 π 算出来。而蒙特卡洛搜索树就是利用蒙特卡洛方法来优化搜索树。简单来说,就是,我们认为这一步下在一个地方是最优的,而我们不知道这地方在哪里。我们先通过一系列随机的采样,从而去猜测一个值,这个值可能是最优解,也可能是一个接近最优解的解。但至少,这可以用来估算像围棋这样大的棋盘的东西了,而不需要把每个细枝末节都同等对待地来暴力搜索。 解决完计算量的问题,我们还要来解决人类在围棋上最大的优势——直觉,或者说「大局观」。那么如何才能拥有大局观呢?我们想一下,人们在下围棋的时候,通常会先考虑下在哪个片区,以获得什么样的目的。而这就是所谓的大局观。 AlphaGo 的另一部分重要思想,得益于神经科学的发展,即人类认识人大脑神经的发展。人类愈发了解了大脑内神经元的工作模式,包括人类学习、认知的神经模型。这样的非常基础的模型,极大地方便了利用计算机来模拟人类进行学习的过程。 蒙特卡洛方法只是简化了计算,并不具备学习的能力。无论是单纯的蒙特卡洛搜索还是与 α-β 搜索结合的还是和置信区间结合一些版本,都与人类能越学越强的围棋技巧相比差上太多。至少,人脑是一个极其复杂的计算模型,哪怕是现在最好的计算机,其算力和整个大脑比起来还是差很多的。 在 2007 年,一些科学家试图提出一个新的机器学习模型,即所谓的深度学习。所谓深度学习,你可以看做模拟许多许多人脑中的神经元构成的一个网络。网络的每一层,针对一个特性进行识别。网络的每一层,都是一个单纯分类的无监督学习模型。你可以想像一下,人眼看到一个图像。经过一系列神经元,首先识别出了里面的眼睛、然后识别了里面的鼻子、嘴,再根据这些特性,发现这是一个人。这样依次发现的机制。而学习是通过一个有监督的反向传播进行。即告诉你这张图像里有一条狗,然后反向的一步步调整网络,让网络适应符合怎么样鼻子、嘴、眼睛的是一条狗。通过不断地数据的训练,即可以让模型越来越优。这个模型在图像识别领域已经达到甚至有时超越了人的识别能力。 而 AlphaGo 使用的就是深度学习来优化蒙特卡洛搜索树。在 AlphaGo 中有两个网络,一个是策略网络,一个是价值网络。策略网络即是一个大局观的网络,机器会先通过其经验,找出其应该做出进攻的反应还是防守的反应,表现在下在哪个片区是最为合适的,是不是应该跟棋之类的大问题。然后再通过蒙特卡洛搜索树去算出具体下在哪里是最合适的。 而我们说到,深度学习模型是真的和人一样可以学习的。每下一次棋,它就可以进一步调优自己的策略网络。首先 AlphaGo 导入了上千个职业选手对弈的棋谱,使得自己有了一个基础的下棋策略。这时候的 AlphaGo 就和一个受过系统训练的围棋少年一样了。然而这和职业选手的区别还是很大。这也就是所谓的「Google 没有顶尖的棋手为什么能开发出顶尖的围棋机器人?」按照一般常理,AlphaGo 应该一段一段地和人挑战,越发提高自己能力。然而 AlphaGo 不是这么做的,它选择和自己对弈。两台 AlphaGo 来对弈,将对弈的结果调优自己的网络。这个听起来很奇怪,为什么两个下得都不怎么样的棋手一起下棋,棋艺能那么快提升呢?因为它一天能和自己下上百万盘棋,它可以把自己分身成几万份跑在几万台电脑上,以及可以昼夜不停也不会过劳死,而这是任何一个人类都做不到的。AlphaGo 的开发人员说,他曾在早期能下赢 AlphaGo,而很快,AlphaGo 的水平就远超了他。所以 AlphaGo 得到了飞速的提升。仅仅五六个月,AlphaGo 就能从战胜欧洲棋王挑战到世界顶尖选手的水平了。 当然搞人工智能也要有基本法。这个基本法就是算力或者说是资源。虽然做了很大的优化,计算下围棋的计算量还是很大的。比起深蓝时依靠超级计算机来解决问题。AlphaGo 选择了一条适合 Google 的路径来解决算力问题。那就是分布式计算。使用分布式计算的 AlphaGo 版本比起不使用的版本其智能程度也是有相当大的提升。即使最简单,它也可以有更多时间来做随机的尝试,以找出更优的价值解。 同样利用深度学习优化蒙特卡洛搜索的 Facebook 围棋团队,相比 Google 就没有那么壕力冲天了。无论是开发资源还是人员来说也是远少于 Google。Facebook 的围棋机器人之前也取得了相当好的成绩,大概可以击败职业二段选手的水平。但是比起 AlphaGo,还是差上许多。 所以说,做这么一个人智能,背后的投入程度、重视程度也起到了很大的作用。这也是为什么深度学习目前做得很好的公司大多是一些顶尖的 IT 企业里的研发团队。 比起 AlphaGo 在围棋上的成就,其实大多数人很好奇人工智能未来的何去何从。从这次中,我们看到计算机已经具备了人类大局判断能力,其本质是类似于人类的学习能力,即不告诉电脑应该怎么做,而让电脑看人类是怎么做的。这项的应用其实相当广泛,尤其在非常复杂的问题上。 比如说,无人驾驶汽车之前发展很困难,是因为人们总是试图去把驾驶规则完全讲给电脑,而这点太过复杂,难以用纯逻辑说清。而今天 Google 的无人驾驶汽车也是使用的类似的深度学习的技术,让计算机观察人类开车并学习,从而模仿人类的判断。最终依靠计算机强大的算力和不会疲劳等特点,甚至超越人类的判断。 短期来看,利用深度学习的人工智能在未来数年内将会得到很大的应用。而这也是 Google 热衷于下围棋的原因。醉翁之意不在酒,在乎山水之间也。Google 只是想利用围棋来显示他们在深度学习应用上的先进水平。 就人工智能的最终目的来看,我们已经跨出了很大的一步。之前而言,我们很大程度局限于人类强大的抽象的思考能力,而模仿人类神经系统的模型已经很好地模拟了这种思考是怎么产生的了。进一步说,如果一个机器,拥有和人完全一样的眼睛、耳朵、鼻子、触觉等作为它的输入,以及类似于人类肌肉和关节的机械部件作为它的输出。并且模拟一个和人脑一样复杂程度的神经网络,并让它观察人类进行学习。是不是在某个未来,我们可以拥有和人类功能非常接近甚至超越人类的智能的出现。深度学习都为这样的强人工智能提出了理论上的基础。
2023-08-12 17:40:491

【转载】AlphaGo原理解析

这些天都在没日没夜地关注一个话题,谷歌人工智能程序AlphaGo(国内网友亲切地称为“阿尔法狗”)以5:0击败欧洲职业围棋冠军樊麾二段,并在和世界冠军的比赛中2:0领先。 什么!! 19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目,现在计算机又要来攻克围棋了吗!? 虚竹在天龙八部里自填一子,无意中以“自杀”破解“珍笼”棋局,逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了? 1933年,东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉,开局三招即是日本人从未见过的三三、星、天元布阵,快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”? 作为一个关心人工智能和人类命运的理科生,近些天刷了好些报道,记者们说“阿尔法狗是个‘价值神经网络"和‘策略神经网"络综合蒙特卡洛搜索树的程序”,但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。 准备好棋盘和脑容量,一起来探索吧? 围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等其他信息,我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。 当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示,记为a。 这样,设计一个围棋人工智能的程序,就转换成为了,任意给定一个s状态,寻找最好的应对策略a,让你的程序按照这个策略走,最后获得棋盘上最大的地盘。 如果你想要设计一个特别牛逼惊世骇俗的围棋程序,你会从哪里开始呢?对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言,第一招是: 蒙特卡洛搜索树(Monte-Carlo Tree Search)是一种“大智若愚”的方法。面对一个空白棋盘S0,黄士杰的老师Coulum最初对围棋一无所知,便假设所有落子方法分值都相等,设为1。然后扔了一个骰子,从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后,棋盘状态变成S1,然后继续假设对手也和自己一样二逼,对方也扔了一个筛子,随便瞎走了一步,这时棋盘状态变成S2,于是这两个二逼青年一直扔骰子下棋,一路走到Sn,最后肯定也能分出一个胜负r,赢了就r记为1,输了则为0,假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。 Coulum心想,这样随机扔骰子也能赢?运气不错啊,那把刚才那个落子方法(S0,a0)记下来,分值提高一些: 我刚才从(S0, a0)开始模拟赢了一次,r=1,那么新分数=2,除了第一步,后面几步运气也不错,那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟,这次扔骰子的时候Coulum对围棋已经不是一无所知了,但也知道的不是太多,所以这次除(S0, a0)的分值是2之外,其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。 那位假想中的二逼对手也用同样的方法更新了自己的新分数,他会选择一个a1作为应对。如法炮制,Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋,结果他又赢了,Coulum于是继续调整他的模拟路径上相应的分数,把它们都+1。随着想象中的棋局下得越来越多,那些看起来不错的落子方案的分数就会越来越高,而这些落子方案越是有前途,就会被更多的选中进行推演,于是最有“前途”的落子方法就会“涌现”出来。 最后,Coulum在想象中下完10万盘棋之后,选择他推演过次数最多的那个方案落子,而这时,Coulum才真正下了第一步棋。 蒙特卡洛搜索树华丽转身为相当深刻的方法,可以看到它有两个很有意思的特点: 1)没有任何人工的feature,完全依靠规则本身,通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同,深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化,让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。 2)MCTS可以连续运行,在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后,完全不必要停下,可以继续进行想象中的对弈,直到对手落子。Coulum随后从对手落子之后的状态开始计算,但是之前的想象中的对弈完全可以保留,因为对手的落子完全可能出现在之前想象中的对弈中,所以之前的计算是有用的。这就像人在进行对弈的时候,可以不断思考,不会因为等待对手行动而中断。这一点Coulum的程序非常像人,酷毙了。 但黄士杰很快意识到他老师的程序仍然有局限:初始策略太简单。我们需要更高效地扔骰子。 如何更高效的扔骰子呢? 用P_human()来扔。 如果某一步被随机到很多次,就应该主要依据模拟得到的概率而非P_human。 所以P_human的初始分会被打个折扣: 这样就既可以用P_human快速定位比较好的落子方案,又给了其他位置一定的概率。看起来很美,然后实际操作中却发现:“然并卵”。因为,P_human()计算太慢了。 一次P_human()计算需要3ms,相对于原来随机扔骰子不到1us,慢了3000倍。如果不能快速模拟对局,就找不到妙招,棋力就不能提高。所以,黄士杰训练了一个简化版的P_human_fast(),把神经网络层数、输入特征都减少,耗时下降到了2us,基本满足了要求。先以P_human()来开局,走前面大概20多步,后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。 这样便综合了深度神经网络和MCTS两种方案,此时黄士杰的围棋程序已经可以战胜所有其他电脑,虽然距离人类职业选手仍有不小的差距,但他在2015年那篇论文的最后部分信心满满的表示:“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强(比如增加CPU数)而同步增强,我们正前进在正确的道路上。” 看样子,下一步的突破很快就将到来。同年2月,黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作,为进一步提高MCTS的棋力,指明了前进的新方向: 红白机很多人小时候都玩过,你能都打通吗?黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏,大多数得分都比人类还好。 “强化学习”是一类机器学习方法,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。游戏结束的时候,Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列<s,a>,设定目标为最后的总得分r,我们可以训练一个神经网络去拟合在状态s下,做动作a的总得分。下一次玩游戏的时候,我们就可以根据当前状态s,去选择最后总得分最大的动作a。通过不断玩游戏,我们对<s,a>下总得分的估计就会越来越准确,游戏也玩儿得越来越好。 打砖块游戏有一个秘诀:把球打到墙的后面去,球就会自己反弹得分。强化学习的程序在玩了600盘以后,学到这个秘诀:球快要把墙打穿的时候评价函数v的分值就会急剧上升。 机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋[7],而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄士杰不仅有一个从人类对弈中学习出的P_human这样一个高起点,而且有一个神经网络可以从对弈样本中学习,有理由相信这次会有更好的结果。 黄士杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局,每局选择分数最高的方案落子,下到第L步之后,改用P_human_fast把剩下的棋局走完,同时调用v(SL),评估局面的获胜概率。然后按照如下规则更新整个树的分数: 前两项和原来一样,如果待更新的节点就是叶子节点,那局面评估分就是v(SL)。如果是待更新的节点是上级节点,局面评估分是该节点所有叶子节点v()的平均值。 如果v()表示大局观,“P_human_fast模拟对局”表示快速验算,那么上面的方法就是大局观和快速模拟验算并重。如果你不服,非要做一个0.5: 0.5之外的权重,黄士杰团队已经实验了目前的程序对阵其他权重有95%的胜率。 以上,便是阿尔法狗的庐山真面目。 上图演示了阿尔法狗和樊麾对弈时的计算过程,阿尔法狗执黑,红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时,樊麾觉得位置1的走法更好。 深度学习、蒙特卡洛搜索树,自我进化三招齐出,所有其他围棋ai都毫无还手之力。99%的胜率不说,“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU,粗略估算超过800万核并行计算,不仅有前期训练过程中模仿人类,自我对弈不断进化,还有实战时的模拟对局可以实时进化,已经把现有方法发挥到了极限,是目前人工智能领域绝对的巅峰之作。 围棋是NP-hard问题,如果用一个原子来存储围棋可能的状态,把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P,当状态为S时,计算最优的落子方案a = P(s)。我们看到,无论是“狂拽酷炫”的深度学习,还是“大智若愚”的MCTS,都是对P(s)的越来越精确的估计,但即使引入了“左右互搏”来强化学习,黄士杰和团队仍然做了大量的细节工作。所以只有一步一个脚印,面对挑战不断拆解,用耐心与细心,还有辛勤的汗水,才能取得一点又一点的进步,而这些进步积累在一起,终于让计算机达到并超过了人类职业选手的水平。
2023-08-12 17:40:551

李世乭与AlphaGo的第二局比赛为什么几次打劫机会都没有把握住

赛前当然是看好李世石九段了,包过中国普遍也是支持李世石的,等alphago三比零之后韩国各界普遍认为比赛不公平,因为比赛中李世石一直没有打劫,很可能是私底下与谷歌的协议,因为alphago很可能不会打劫,也不能应对打劫这个围棋手法。在第三场比赛中,李世石进行两次打劫,一度打出一个小高潮,对AlphaGo造成了一些小困境,但在前期布局不利,败局已定的情况下,李世石即便打劫也无法战胜AlphaGo。很难说第二场比赛李世乭怎么不打劫,可能当时有更好的选择。
2023-08-12 17:41:111

什么是阿尔法狗?

阿尔法围棋(AlphaGo)是于2014年开始由Google DeepMind开发的人工智能围棋软件。它曾入选2016年度中国媒体十大新词,并被围棋界公认其棋力已超过人类职业围棋顶尖水平。专业术语上来说,AlphaGo的做法是使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,其中一个是以估值网络来评估大量的选点,而以走棋网络来选择落子。在这种设计下,计算机可以结合树状图的长远推断,又可像人类的大脑一样自发学习进行直觉训练,以提高下棋实力。
2023-08-12 17:41:522

为什么alphago自战棋谱非常激烈,而跟人类的棋

在13日结束的AlphaGo与李世石五番棋对决中的第四局,李世石胜出。连败三局之后,人类终于扳回一局。但这场胜利来得有些迟,AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战,人们最想追问的是,AlphaGo为什么能战胜人类?赛前,无论是职业棋手还是科技界,并不看好机器胜利机器赢了人类,这个结果让无数人感到吃惊与意外。在这场比赛开始前,很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为:电脑和人下围棋,百分之百是人赢。而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好,并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯(Demis Hassabis)在第二场比赛结束后的发言可以看出,他当时认为 AlphaGo 的胜利难以置信。在与李世石对弈前,AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈,以 5:0 战胜了樊麾,而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段,李世石为职业九段。围棋界公认,这两人的围棋水平为:樊麾是踏在了职业门槛,而李世石则是职业顶尖,前围棋世界第一人,代表了人类围棋最高水平。但仅仅过了 5 个月,AlphaGo 在五番棋中以 3:0 战胜了李世石,并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。很多关注人机大战的人都想要知道一个问题:Google是怎么设计AlphaGo的?比如,AlphaGo 的运行机理是什么?进入自我学习的阶段之后,谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升?还是完全凭借其自身的学习能力来提升?最近两天 ,DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问,但德米什 · 哈萨比斯没有进行回应。在对外公布的所有信息中,包括其在《Nature》上发表过的两篇论文中,都只提到了他们的 AlphaGo 能够做什么,都没有透露 AlphaGo 的运行机制是什么,即 AlphaGo 到底是怎么做到的。德米什 · 哈萨比斯仅透露,就 AlphaGo 的对弈水平而言,他们的神经网络训练算法远比它使用的那些硬件重要得多。此外,这次人机对战所消耗的计算量差不多与 AlphaGo 和樊辉对弈中消耗的相当,使用的是分布式方案搜寻,能有效节省决策用时。人工智能战胜人类,为何引起这么多关注?围棋这项发源于中国的有两千年历史的智力游戏,曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是:棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点,在围棋中简称为 “点”。对局双方各执一色棋子,轮流下子,最后谁占的点多,谁就赢。虽然围棋规则简单,但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段,却是无穷无尽的。聂卫平曾解释了其中的原因,围棋棋盘上有 361 个点,其理论变化值是 361 阶乘,阶乘到底本身就是一个无限大的数,无法表达。比如,棋手在下第一手时有 361 个点可以选,下第二手有 360 个点,第三手是 359,361×360×359×……2×1,即 361 阶乘。(有数据统计,结果约是 1.43 乘以 10 的 768 次方。)这个数字有多大呢?Google 灵感来源于一个单词 Googol,以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”,这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量,也不过是 10 的 80 次方。同时,在围棋对弈中,还包含着很多变化:打二还一,打三还一,打劫,倒扑等,每一种变化都会衍生出无数的变化。在下棋过程中,棋手需要有一种判断。而此前,电脑被认为无法承担这种判断,因为这不是计算就能够完成的。AlphaGo 是怎么做到的?AlphaGo 结合了 3 大块技术:蒙特卡洛树搜索 (MCTS) 是大框架,这也是很多博弈 AI 都会用的算法;强化学习 (RL) 是学习方法,用来提升 AI 的实力;深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。我们在这里用比较通俗的语言来解释一下:棋盘上有 361 个点,AlphaGo 会进行一层层分析:下在哪个点或区域是有利的?这时它会参考输入的过往的棋谱,对局和模拟,进行选择、推演,并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值,选择出一个对“赢”足够优的解。围棋?AI 能超越人类的还有很多.AlphaGo 的胜利,引发了大讨论。因为人类开始面临着一个前所未有的情况:人类造出了,在智能的某个点上,超越自己的东西。 通过黑白纹枰上的胜利,AI 已经在人类的智力围墙打开了第一个缺口,但这绝非最后一个。在过往漫长的岁月里,机器都只是人类劳动的一种替代与工具,无论飞机、汽车、起重机还是电子计算机、互联网,尽管看上去有着无限的能力,但却从未侵入由人类大脑所把持的领域——“创造”。而随着 AlphaGo 的胜利,这一天或许将成为历史。实际上,过去几天,这台人工智能在围棋盘上发挥的创造能力,已经超越了人类两千年于此道上积累的智慧结晶。如果我们检索人类的“资源库”,会发现,复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态,发生改变。很多从事创作、设计、推演、归纳的工作,都将被 AI 部分替代。如果将思路拓展出去,可以应用在音乐的创作,等其他类似于元素组合式的创造,从某中意义上说,它能够击败围棋的顶尖高手,也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。按照德米什 · 哈萨比斯的设想,人工智能未来的主要用途将是医疗、智能助理和机器人。而人们通过这次比赛担忧的是,如果人工智能拥有创造性的思维,加上远超出人类的运算能力,是否有一天会统治人类。就像网友评论里说的段子一样,“第四局AlphaGo输了,是不是AlphaGo故意输的?细思极恐”。
2023-08-12 17:42:591

第一个战胜围棋世界冠军的人工智能程序是什么?

阿尔法狗阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序,由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。
2023-08-12 17:43:113

alphago战胜人类选手的三个法宝

计算能力、算法和大数据。AlphaGo是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。alphago战胜人类选手的三个法宝是计算能力、算法和大数据。
2023-08-12 17:43:381

AlphaGo究竟如何决定落子

通过搜索,比较。权衡。所以说软件有个衡重呢。
2023-08-12 17:43:482

AlphaGo 为什么它能战胜人类

它能通过图灵测试吗?它能证明自己是人类吗?全人类挑战它,它会 进化退化还是故障呢?ennn,,,它已经声明过了一切怪你没看说明书~
2023-08-12 17:44:052

alphago战胜了人类世界围棋冠军是哪一年

2016年3月AlphaGo在围棋人机大战中击败围棋世界冠军李世石。2016年3月9日,围棋人机大战首局在韩国首尔四季酒店打响。赛前猜先阿尔法围棋猜错,李世石选择黑棋,率先展开布局。黑棋布局走出新型,阿尔法应对不佳,出现失误。李世石抓住电脑布局不擅长应对新型的弱点获得不错的局面。围棋的胜负关键往往是中盘阶段,阿尔法围棋之后的下法变得强硬,双方展开接触战。李世石抓住机会,围住一块大空,在大局上抢得先机。就在观战棋手都认为李世石占优的情况下,他却放出了非常业余的手法,瞬间使微弱的优势化为乌有,还变成了劣势。进入官子,阿尔法围棋根本不犯一点错误,等阿尔法围棋下了186手,李世石算清后投子认输。比赛规程李世石与阿尔法围棋的围棋人机大战为五番棋挑战,但无论比分如何将下满五局,比赛采用中国围棋规则,执黑一方贴3又3/4子(即7.5目),各方用时为2小时,3次60秒的读秒机会。五局比赛分别于2016年3月9日、3月10日、3月12日、3月13日和3月15日在韩国首尔钟路区四季酒店进行。
2023-08-12 17:44:191

AlphaGo是如何下棋的,它真的能“理解”围棋吗?

个人认为当然是不能够理解的啊,毕竟程序只是程序而已啊,虽然表面上说是人工智能,让我们把手机放到古代,古代人看着正在播放音乐的手机说:“这东西真的能够唱歌吗?”这个问题与题目的道理一样的。阿尔法狗只是在程序运算上胜过了人类的思维速度而已,但这并不能够证明一个人工智能就是能够真正的理解围棋了,理解只是专属于人类的范畴,跟思维一样,思维是专属于人的,阿尔法狗再厉害也是人工的,是人工赋予的它的这种运算能力,在它的所谓理解里面只是一些大量的云数据而已。
2023-08-12 17:44:431

AlphaGo为什么这么厉害

2131232323123
2023-08-12 17:45:2713

alphago为什么这么厉害

是的,人工智能程序还有很多厉害的。这个不算什么的,。
2023-08-12 17:47:066

AlphaGo为什么这么厉害

AlphaGo为什么这么厉害AlphaGo这个系统主要由几个部分组成:走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。1、走棋网络走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。2、快速走子那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。3、估值网络AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。4、蒙特卡罗树搜索这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。5、总结总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。
2023-08-12 17:47:531

阿尔法狗宣布退役是真的吗 AlphaGo为什么要退役

阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾。2016年3月挑战世界围棋冠军、职业九段选手李世石。根据日程安排,5盘棋将分别于3月9日、10日、12日、13日和15日举行,即使一方率先取得3胜,也会下满5盘。最后以4:1结束了这场“战争”。2016年3月27日,AlphaGo确认挑战《星际争霸2》。2016年12月29日晚起,一个注册为“master”、标注为韩国九段的“网络棋手”接连“踢馆”弈城网和野狐网。 2016年12月29日晚起到2017年1月4日晚,master对战人类顶尖高手的战绩是60胜0负。最后一盘前,大师透露,“他”就是阿尔法围棋(AlphaGo)。2017年5月23日-27日柯洁与AlphaGo在“中国乌镇·围棋峰会”展开对弈。5月23日、25日、27日,阿尔法狗三胜柯洁。2017年5月26日,在人机大战配对赛中,古力和连笑两位棋手分别与AlphaGo组队,2V2较量。最终连笑一方执白中盘取胜。5月26日下午的团队赛,AlphaGo获胜。27日赛后宣布AlphaGo退役。
2023-08-12 17:49:052

100:0,新AlphaGo放弃了人类?

01 2017年10月19日,谷歌子公司DeepMind发布了AlphaGo的新版本。很多人知道AlpoaGo是一个人工智能程序,却不知道它其实是一个家族,早期战胜韩国选手李世石的是AlphaGo Lee。在乌镇击败世界冠军柯洁的是AlphaGo Master。本次发布的是AlphaGo Zero(阿尔法零),它经过3天的训练便以100:0的战绩击败了他的哥哥AlphoGo Lee,经过40天的训练便击败了它的另一个哥哥AlphoGo Master。 AlphaGo Zero与之前版本相比,最大的区别在于,它不再依靠人类的指导来成长,即之前的AlphaGo Lee是依赖于人工录入的大量棋谱来帮助其学习如何下棋,说白了,它是在人的指导下学习,可以理解为是人类千年围棋经验教出的学生。 而AlphaGo Zero使用了强化学习算法,即不再依赖任何棋谱,编程人员输入围棋基本规则后,不再进行任何教导,完全由其自己进行摸索,总结走棋方法,相当于人工智能完全按照自己的方法学习。AlphaGo Lee完败于摒弃了人类经验的AlphaGo Zero,这说明人类的经验可能误导了AlphaGo Lee,进而限制了它的发展。 AlphaGo Zero的行棋方式在开局和收官阶段,与人类选手有较大的相似之处,而盘中的行棋风格的确与人类选手和之前版本的AlPhaGo有较大不同,而正是这种不同让其可以在100次与AlphaGo Lee的交战中立于不败,换个说法,如果当初AlphaGo Lee没有拜人类为师,而是向机器学习,那么对于拥有更强计算能力的AlphaGo Lee来说,胜负还未可知。 除了零经验学习外,AlphaGo Zero的另一大特点是将之前版本AlphaGo的两个神经网络融为一体,在之前版本的AlphaGo上,如何走棋是由“策略网络”和“价值网络”两个神经网络来计算如何行棋的,即首先由“策略网络”利用之前累积的经验,判断在当前棋型下哪些位置适合行棋,之后由“价值网络”对在这些位置行棋后的种种可能进行模拟,计算胜率,最终选择出行棋位置。 而AlphaGo Zero将二者融为了一体,对之前两个网络的特征提取等模块进行了共用,可以在计算出可能行棋的位置时便给出相应的“胜率”,大幅提高效率,减少了训练所需的时间。这也是AlphaGo Zero在训练了三天就打败了训练了几个月的AlphaGo Lee的主要原因之一。 人工智能不仅是计算机科学领域发展的制高点,在所有行业都具有无限潜力和应用价值,目前世界各国普遍看好,人工智能技术将成长为下一次技术革命契机。即便最终人工智能没有达到革命级别的颠覆程度,AI已经在逐渐改变我们的生活。 以往人工智能的进步都是建立在软件与硬件同步发展的基础上,神经网络算法最早在上个世纪中叶就被提出,然而受限于计算能力,神经网络算法一直发展缓慢。 之后随着硬件计算速度的不断提高,已有的软件算法不断被实现并改进,改进的算法对硬件要求更高,从而进一步促进了硬件的发展,而AlphaGo Zero的出现完全建立在算法更新的基础上。 前一版本的AlphaGo需要在48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片,一块成本即达500万美元)上进行几个月学习,而AlphaGo Zero只需要4个TPU加上几天的时间便可完成学习。这种零经验学习能力非常适合在蛋白质折叠和其它缺少样本的医疗领域进行应用,可以很好地解决因缺少试验样本而导致研究进展缓慢的问题。未来的相关研究中完全可以输入规则后利用AlphaGo Zero的能力进行模拟,最后利用有限的样本进行验证即可。 AlphaGo逐渐升级之路 故事讲到这里,实在不得不佩服谷歌深厚的技术实力与精明的商业头脑。AlphaGo从诞生伊始,就得到了deepmind团队的精心包装,仔细回想起来,可谓是“城里套路深”。 从最初战胜低段位职业棋手开始预热或者说炒作,到战胜人类顶尖高手李世石,AlphaGo的登场已经足够华丽。不过4比1的比分还是给了人类一线希望,这仅有的胜局中,李世石剑走偏锋,直接把AlphaGo逼出了“大脑短路”的症状,可见此时AlphaGo虽已经足够强大,但尚不完美。此后各路人类高手开始卧薪尝胆,精研AlphaGo的套路,寄希望于重新捍卫人类尊严。 随后,一个神秘的“master”在围棋界顶级棋手的对战平台上取得了60胜0负的骄人战绩,这位master到底是何方神圣,是人是妖可谓是赚足了吃瓜群众的眼球。直到华丽的60胜达成,谜底才最终揭晓。 此后便是吸引了全世界目光的乌镇对决,AlphaGo Master把柯洁打到毫无还手之力。虽然柯洁已经表现出了真正的人类最强者战力,却仍然被AlphaGo完全压制,只要出招有任何一点闪失,立刻会陷入AlphaGo“最小优势胜”策略的陷阱,再无翻身余地。 乌镇对决之后,人类在围棋领域已经彻底甘拜下风,别说柯洁一人,五大高手联手作战比柯洁输得更快,AlphaGo一时风光无限。 如今,乌镇硝烟刚要散尽,谷歌又搞了个大新闻出来!人工智能在摒弃人类经验后,用三天时间自学的AlphaGo Zero打败了人类几千年的经验。AlphaGo的进化版打败了原始版,不禁叫人想起《铁甲钢拳》里叫人热血贲张的机甲肉搏,一个AI输给另一个更牛的AI,中国AI战胜美国AI,这很有可能是未来棋类竞技中的真实场景。
2023-08-12 17:50:471