AphaGo0能获胜的原因是什么? 2)AhphaGo的相关技术有哪些?

如题所述

AlphaGo中就_取了两套神经网络系统。
走棋网络,快速走子,估值网络,蒙特卡罗树搜索。一个神经网络基于当前的状态给出下一个动作,一个神经网络用来评估当前的状态是否对我方有利,使用神经网络配合搜索树来提供好的下棋行为,将这些好的行为作为训练数据反过来训练神经网络,这样一来一回使用强化学习的方法不断地训练,我们的神经网络就能不断地提升自己下棋的能力,这就是AlphaGo能战胜人类的主要原因。走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-06-13
阿尔法go把两个神经网络结合起来(决策网络和数值网络),就可以大致预估出当前的情况
2. AlphaGo的相关技术:走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。