也开始和大家解释。
“从根节点,也就是要做决策的局面r出发向下选择一个最急迫需要被拓展的节点t;局面r是第一个被检查的节点,被检查的节点如果存在一个没有被评价过的招式,那么被检查的节点在执行后得到的新局面就是我们所需要展开的t;那么利用ucb公式得到一个拥有最大ucb值的可行招式,并且对新局面再次进行检查嗯,这里的公式可以简化一下”
写了满满两大张,汪潮复查了两遍,没问题。逻辑能自洽。忍不住叉腰长叹道“我真他妈是个天才,以前怎么没想到呢”
“这就完事了我看看呢”黄明海也凑了过来。
“完事你想屁吃呢”汪潮臭屁的说了声,“这些就只是一个开始,让我们能从零开始的起步。”
接着又解释道“这是个系统工程,还不知道能不能赶上知文的这次大赛喂老三,要是没赶上你可不能怪我。我脑子里有大体的框架,但真的非常的难弄。”
沈知文郑重的说道“没事,不参加大赛都行。我有预感,这应该是我以后的研究方向。”
rg
rg。rg ,