太玄图·萌符动画图标
萌玄道-道家新流派/新道家流派:构建尚三为中轴的萌玄道哲学体系,演绎阴阳明、无有屯、三分三重及玄玄图式,拓展道家哲学和文化
  首页 道法自然 众妙之门 三生万物 道商(萌玄派) 科学  
  简介与导航 道的三个层次 无无-玄玄之一 太玄图 人之初性本萌 飞弹三色围棋  
  一分为三论/三分法 生久回·和怡真 有有-玄玄之二 萌脸符/萌符 情智行合一 三值计算机  
  萌玄道网资料库 道者万物之奥 屯屯-玄玄之三 太玄九数图 玄怡 三重图式  
 
飞弹三色围棋(飞弹围棋/飞围)专题

飞弹三色围棋与人工智能

飞弹三色围棋可以做人工智能算法的测试棋种吗?

     2013年张宏伟(飞萌重庆)就创制了第一版萌式三色围棋,当时创制萌式三色围棋的目的是:为《萌玄道》、《道德经》三分化诠释、《太玄经》三分图式、当代《一分为三论》哲学、……等形而上的“三分哲学”创制一个形而下的象征物。经过我多次修改完善,目前最新萌式三色围棋规则是2020年版。但是,萌式三色围棋太复杂和烧脑,一局萌式三色围棋,花子可能多达几十个(每10手棋2个花子),而且每个花棋串又可能是一个“三变多尾狐-振荡器结构”,其变化和逻辑推理极为复杂,人类棋手要高质量地下完一局萌式三色围棋有很大难度。为此我另行设计了飞弹三色围棋,它是萌式三色围棋的简化版,飞弹三色围棋更利于人类围棋类棋种爱好者实际对弈,也更利于人机同台竞技,或者说,飞弹三色围棋比萌式三色围棋更接地气。
     2010年代初期以来,围棋人工智能程序凭持“深度学习(深度卷积神经网络)和蒙特卡洛树搜索”两大技术在棋力上取得了“大跃进”。在2016年和2017年韩国围棋九段棋手李世石、中国围棋九段棋手柯洁分别与人工智能围棋程序“阿尔法围棋”(AlphaGo)之间进行了两场影响较大的“围棋人机大战”。第一场“围棋人机大战”,于2016年3月9日至15日在韩国首尔进行,阿尔法围棋以总比分4比1战胜李世石;第二场“围棋人机大战”,于2017年5月23日至27日在中国嘉兴乌镇进行,阿尔法围棋(AlphaGo)以总比分3比0战胜当时围棋世界排名第一的柯洁。
     那么,飞弹三色围棋(每方3个飞弹/花子)人工智能程序的训练难度有多高呢?计算机人工智能在传统两色围棋领域棋力一飞冲天所凭持的“深度学习、蒙特卡洛树搜索”两大技术,在新的飞弹三色围棋领域的泛化能力如何?计算机飞弹三色围棋程序棋手与人类棋手同台竞技、共同演进,其各自棋力递增情况又会如何?

    飞弹三色围棋是站在“围棋巨人”的肩上
    飞弹三色围棋对局中放弃下飞弹就成为围棋对局,也即围棋变化集合是飞弹三色围棋变化集合的子集,这里的变化集合可以用状态空间复杂度(无次序手数标识的棋局局面图的数量)和博弈树复杂度(有次序手数标识的棋局局面图的数量)来表征。
    围棋状态空间复杂度(含不符合规则的状态)为:3^361≈10^172;
    飞弹三色围棋状态空间复杂度(要用到排列组合公式计算)为:
    A、只有1个飞弹的情况(其它5个飞弹未使用),则有361*3^360(≈120*10^172,围棋状态空间120倍);
    B、只有2个飞弹的情况(其它4个飞弹未使用),则有361*360/2*3^359;
    C、只有3个飞弹的情况(其它3个飞弹未使用),则有361*360*359/6*3^358;
    D、只有4个飞弹的情况(其它2个飞弹未使用),则有361*360*359*358/24*3^357;
    E、只有5个飞弹的情况(其它1个飞弹未使用),则有361*360*359*358*357/120*3^356;
    F、只有6个飞弹的情况(其它0个飞弹未使用),则有361*360*359*358*357*356/720*3^355(≈4*10^9*10^172,围棋状态空间40亿倍);

    围棋博弈树复杂度(含不符合规则的次序)为:362!(Pass/下虚着也算一种下法),其值比3^361≈10^172还大得多。
    含有花子的博弈树就是飞弹三色围棋相对围棋增加的博弈树复杂度,飞弹三色围棋博弈树复杂度不好估算,但是比围棋博弈树复杂度会有大量增加。

    AlphaZero系统使用的计算机围棋规则是Tromp-Taylor规则,Tromp-Taylor规则与中国围棋规则基本等效。Tromp-Taylor规则编制为程序代码,则可以实现合法走棋、提子、禁着判断及胜负判断。计算机进行对弈及蒙特卡洛模拟对弈就需要程序化的Tromp-Taylor规则支持。

    Tromp-Taylor(围棋逻辑)规则表述简洁,使用了数学中的图论思想。Tromp-Taylor规则中文翻译如下(略有增删):
    1、围棋是在19x19(361)个交叉点的棋盘上进行,对战者称为黑方和白方;
    2、每个交叉点可为黑,白,空三种颜色之一;
    3、若存在一条由全是P点颜色的相邻点(水平或竖直)构成的,从P点到某颜色为C的点的路径,就称某颜色不为C的点P为可“到达C”;
    4、将所有不能“到达空”的某种颜色的点染为空,叫做“清除”那种颜色(也即实现提子效果);
    5、从空白棋盘开始,双方交替“落子”,黑方先走;
    6、“落子”要么是“弃权/下虚着/Pass”,要么是使得全局不和以往重复的一次“落子”;
    7、“落子”由如下步骤组成:首先将一个空点染为己方颜色,如果可以“清除”对方颜色,则清除对方颜色,(如果不能“清除”对方颜色,但可以清除己方颜色,则需要重新落子/落子点为禁着点);
    8、当出现两次连续的“不走”时,棋局结束;
    9、某一方的点数等于此方颜色的点数加上只“到达”这一颜色的空色点数;
    10、点数高的一方获胜。双方点数相等为平局。

    可以认为围棋只有1套逻辑规则:1、Tromp-Taylor(围棋逻辑)规则。
    而飞弹三色围棋具有2套逻辑规则:1、Tromp-Taylor(围棋逻辑)规则;2、花棋串上层属性变化(逻辑)规则。
    AlphaZero的深度卷积网络(带残差模块)训练围棋技术的过程,可以看作是以Tromp-Taylor(围棋逻辑)规则产生大量棋谱,然后只告诉神经网络相应棋谱黑方白方最终输赢,让神经网络从这些棋谱中统计出一些较深层、较复杂的棋形(模式)和棋形(模式)相互组合和影响的可以赢棋的统计规律,进一步的也可以认为是让神经网络用统计规律来拟合、逼近演绎逻辑规律和穷举的最优解。
    AlphaZero(FlybombGo Zero)的深度卷积网络(带残差模块)训练飞弹三色围棋技术的过程,可以看作是以Tromp-Taylor(围棋逻辑)规则和花棋串上层属性变化(逻辑)规则产生大量棋谱,然后只告诉神经网络相应棋谱黑方白方最终输赢,让神经网络从这些棋谱中统计出一些较深层、较复杂的棋形(模式)和棋形(模式)相互组合和影响的可以赢棋的统计规律,进一步的也可以认为是让神经网络用统计规律来拟合、逼近演绎逻辑规律和穷举的最优解。
    飞弹三色围棋是规则中嵌套规则,游戏中含有游戏(子游戏),飞弹三色围棋中花棋串的上层属性变化规则和判断,就是围棋规则中嵌套的规则、围棋游戏中嵌套的子游戏。相比于AlphaZero训练围棋技术,AlphaZero(FlybombGo Zero)训练飞弹三色围棋技术的难度将增大。 而能否正确判断飞弹三色围棋中花棋串的上层属性,将在很大程度上决定能否下好飞弹三色围棋。
    飞弹三色围棋中的花棋串可以比喻为一个“三变多尾狐-振荡器结构”,与花棋串紧邻的黑棋串和白棋串就是三变多尾狐的“黑尾巴和白尾巴”,这些黑尾巴和白尾巴的多少和有无“眼睛斑纹",将决定此三变多尾狐(花棋串)是:“黑脸狐”,“白脸狐”,还是“花(灰)脸狐”? 而且这种上层属性可能会来回变化多次,象川剧“变脸”一样,好似一个属性变化振荡器,其示意图如下:


    Michael Nielsen著的《神经网络和深度学习》中,关于“神经网络可以计算任何函数”的说法有两个提醒:
    第一点,这句话不是说一个网络可以被用来准确地计算任何函数。而是说,我们可以获得尽可能好的一个近似。比如可以通过增加隐藏层的数量,提升近似的精度。
    第二点,就是可以按照上面的方式近似的函数类其实是连续函数。如果函数不是连续的,也就是会有突然、极陡的跳跃,那么一般来说无法使用一个神经网络进行近似。这并不意外,因为神经网络计算的就是输入的连续函数。然而,即使那些我们真的想要计算的函数是不连续的,一般来说连续的近似其实也足够的好了。如果这样的话,我们就可以用神经网络来近似了。实践中,这通常不是一个严重的限制。
     ---------------------------------------------
      神经网络训练所采用的反向传播算法(BP)需要根据损失函数和链式求导法则,反向逐层计算损失函数对权重的导数。 如果将飞弹三色围棋中落子情况(输入)和花棋串的上层属性变化(振荡)引起的地域点数出入情况(输出)抽象为函数,这个函数就是一个存在有突然、极陡跳跃的非连续函数,其对应的损失函数也是一个存在有突然、极陡跳跃的非连续函数。而在非连续函数突变和跳跃处是不能求导的,但是否有一个连续函数来近似它?并且深度卷积神经网络来计算它也会表现得足够好呢?
    花棋串可能是一个“三变多尾狐-振荡器结构”,花棋串上层属性出现突变和跳跃所需要的下棋手数往往很长,而且花棋串上层属性还可能来回变化多次,因此,我个人目前判断深度卷积神经网络来计算处理飞弹三色围棋有很大难度。

    人类智能有两大方法:归纳法和演绎法,两者互为补充。
    而目前围棋AI长于依凭大数据的统计规律(归纳法),表现得远超人类,其泛化功能与人类的演绎法有较大区别,致使围棋AI在复杂征子及大龙对杀时,有时会出现人类看来的低级错误。
    AI能仅依凭大数据的统计规律(归纳法),破茧成蝶吗?
    演绎逻辑推理与统计概率做判断的区别,可以黑方A大龙与白方B大龙对杀为例:
    人类棋手是用的演绎逻辑推理,常用的是亚理士多德的三段论式推理:
    大前提——可略表述为“长气杀短气”:
    小前提——比较A大龙和B大龙的气;
    结论————杀龙情况。
    设该黑方行棋,则黑方就会数出A大龙和B大龙的气数,令为X气和Y气,并进行逻辑判断:
    当X=Y,
    则黑方会立即按照杀白龙的紧气序列进行紧气,这个紧气序列的末端就是提吃白方大龙。
     但AlphaGo等不是这样的,它们并没有归纳出“长气杀短气”的逻辑规则,也没有产生严密数气比气的程序模块,而是基于统计概率来判断的。
    其深度卷积神经网络是根据较深层、较复杂的棋形(模式)和棋形(模式)相互组合和影响的统计规律,给出落子点概率和落子点的胜率来判断。
    如果黑方为AlphaGo等,它要成功杀白龙,那么前述那个紧气序列中的所有点都必需是第一高概率点,只要其中一个不是第一高概率点,那么就会杀龙不成功。
    蒙特卡洛树搜索其实也是基于概率统计的。它运作好比是将深度卷积神经网络给出的每手棋的前10位概率点都模拟试下一遍,然后根据试下结果,调整前述紧气序列,多数情况下蒙特卡洛树搜索会把紧气序列调整正确,但有时它也不能正确调整。

    在国际象棋中,AlphaZero训练4小时大比分击败2016 TCEC冠军程序Stockfish,千场只输155场。
    在日本将棋中,AlphaZero训练2小时击败了2017年CSA世界冠军程序Elmo,赢得了91.2%的比赛。
    在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo,赢得61%的比赛。
    DeepMind说,现在AlphaZero已经学会了三种(国际象棋、日本将棋和围棋)不同的复杂棋类游戏,并且可能学会任何一种完全信息博弈的游戏,这“让我们对创建通用学习系统的使命充满信心”。
    
     微软亚洲研究院资深研究员杨懋、主管研究员秦涛所写的《AI研究和实用化,为何从棋牌开始?》一文中有如下文字:AI算法在研究棋艺的过程中不断精进和提升,会带来更多设计上的创新,从而在根本上提升人工智能算法的能力和适用范围。…棋类也很适合作为新的AI算法的标杆(Benchmark)。…棋牌类AI的成功和突破能够启发AI在其他方面的研究和应用,…推动人工智能去攻克一个又一个技术和应用的“高地”

    AlphaZero架构能在缺乏“演绎法”的情况下快速攻克含有多层规则(多层逻辑)的飞弹三色围棋吗?站在“围棋巨人”肩上的飞弹三色围棋,应该还是可以尝试做一做人工智能算法的新的测试棋种吧!
        
    来源:萌玄道网
 

  >>飞弹三色围棋专题  
  ·飞弹三色围棋简介和规则  
  ·飞弹三色围棋花子禁着点说明  
  ·飞弹三色围棋私眼说明  
  ·飞弹三色围棋记谱法及称读法  
  ·飞弹三色围棋F3Go1.4程序下载  
  ·飞弹三色围棋(1)实战对局  
  ·飞弹三色围棋实战对局A  
  ·飞弹三色围棋实战对局B  
  ·飞弹三色围棋实战对局C  
  ·飞弹三色围棋实战对局棋谱下载  
  ·飞弹三色围棋与人工智能  
     
  ·萌式三色围棋  
     
 
 
Copyright © 2013--2021       www.mxdao.cn, All Rights Reserved     萌玄道网  版权所有