从围棋到电玩，AI 将如何走入真实世界？交大资工系吴毅成教授从 AlphaGo 谈起

AI与大数据 57分钟前 0

▼

20 世纪以来，电脑游戏（Computer game）就一直被视为 AI 界的果蝇，意思是如果想深入研究 AI 技术，电脑游戏会是人工智慧的最佳缩影。棋局多变、难度极高的电脑围棋更视为 AI 的挑战，打败职业棋士一直是围棋程式开发者的终极目标。

2016 年，AlphaGo 击败南韩最强棋士李世乭后，AI 顿时成了全世界最热门关键字，关于 AI 的产业应用及哲学思辨如雨后春笋冒出；然而 AlphaGo 问世，宣告的不仅是程式打败人类的结果，研究方法与技术才是接下来加速全球产业革新的关键，围棋只是 AI 颠覆世界的起点。

马来西亚从事电脑游戏研究的知名学者吴毅成教授，是中国台湾在 AI 领域最具指标性的学者之一。吴毅成教授目前正在参与科技部 AI 研究计划“深度强化式学习技术之应用研究”，聚焦 AI 如何从虚拟环境走入真实世界的应用。透过本次专访，大众有机会深入了解吴毅成对 AI 未来趋势的见解，以及他在深度强化式学习技术的 3 种应用研究。

从围棋到电玩，AI 将如何走入真实世界？交大资工系吴毅成教授从 AlphaGo 谈起 AI与大数据图2张

▲ 吴毅成教授。（Source：交通大学）

首先，什么是深度强化式学习？

深度强化式学习（Deep Reinforcement Learning，DRL）是深度学习（DL）与强化式学习（RL）的结合，两者同属于机器学习（ML）领域的技术。如果说人工智慧是模拟人的大脑运作，深度学习就如同视觉感知，如学习辨识物件，强化式学习则是学习决策布局，深度强化式学习整合两者，学习感知及其后决策。

过去单纯的强化式学习，需要仰赖人为编写规则或繁复工具才能获取训练特征，例如传统西洋棋需要辨识优劣棋型，必须先经过研究分析等步骤，并利用演算法归纳出棋型特征，再透过奖惩机制强化电脑的认知，以做出最佳的决策。

而深度学习则是具备自动抓取特征的能力。例如辨别猫狗的问题，只要喂给电脑大量的图片，深度学习技术就能自动分类出属于猫或狗的特征，相当于一颗拥有超强记忆力的“高级人脑”。由于这个学习过程需要相当强大的运算单元来支持，因此深度学习是到近十年硬件设备有了明显升级，才开始爆炸性的成长。

2016 年 AlphaGo 就是结合这两种技术（DL＋RL＝DRL），先利用深度学习技术分析与模仿人类棋谱，判别棋型与局势优劣，而后再加入强化式学习的训练，并结合重要的强化式学习方法──蒙地卡罗树搜寻法创新招数，因此获致打败世界最强职业棋士的重大成果。

聚焦于探索更泛化的人工智慧（Artificial General Intelligence），2017 年 AlphaGo 的开发团队 Deepmind 进一步在《Nature》期刊发表 AlphaGo Zero，采用更进阶的 DRL 技术，训练程式从“零知识”开始学围棋，过程无需人类专家的棋谱资料，AlphaGo Zero 靠着“自己打自己”学习得胜策略，实力直接超越所有人类棋士和围棋 AI，包括 AlphaGo。

这套从围棋程式发展的“自学技术”，已不再局限于围棋，AlphaGo Zero 的进阶版 AlphaZero 甚至延伸到其他如西洋棋、将棋等棋类，同样透过自学取得顶尖成绩，这样的结果不仅开启学界对 DRL 技术的研究热潮，同时也预告未来 AI 将更有机会应用于多方领域，走向产业化发展。

DRL 应用类型一》持续精进演算法，延伸围棋教学应用

过去由吴毅成领军的电脑游戏与智慧实验室（Computer Games and Intelligence Lab，简称 CGI Lab）曾在 2017 年 7 月 IEEE FUZZ 国际会议举办的人机围棋赛中，以围棋程式“CGI”（全名 CGI Go Intelligence）打败红面棋王周俊勋，成为第一个在正式的人机赛打败职业九段棋士的学界程式。一个月后，CGI 在世界智能围棋公开赛击败内地腾讯公司的绝艺、日本 DeepZenGo 等知名 AI，获得预赛全胜冠军、决赛亚军的好成绩，成为注目焦点。

与其他投入大量计算资源的企业相比，学界程式能获得如此成绩很不容易，而 CGI 靠得就是持续开发新方法来精进演算法，以减少计算资源的消耗。吴毅成提到，在这次“深度强化式学习技术之应用研究”，他将研究主轴依应用环境分成三类，第一类就是以 DRL 技术持续精进 CGI 的演算法，同时延伸至围棋的教学应用。

2017 年在世界智能赛获得亚军之后，吴毅成与马来西亚知名的海峰棋院及职业棋士合作，借由 CGI 程式辅助棋士的对弈训练，并且进一步研发出“围棋终身学习系统”，在 2018 年科技部主办的“未来科技展”获得相当高的人气。技术论文更被 AI 领域极具权威的会议 AAAI-19 接受，显示国际学术社群也相当肯定这项研究。

吴毅成表示，这个想法是在与“海峰棋院精锐队总教练”周俊勋棋王交流时诞生的。当时周俊勋提到一个状况，如果棋士实际棋力有进步，但与 AI 对弈却还是输了，那么对棋士来说就会变成困扰：他们没办法知道自己棋力的程度。即便有很强的围棋程式，甚至出现更强的，对棋士而言没办法分辨强度变化。

“所以如果有棋力跟他们差不多的程式，说不定就能让棋士抓到感觉。”吴毅成说。这项从使用者回馈而来的建议，让团队开始钻研动态调整棋力的技术，因此开发出多达 40 种棋力、从初学到职业棋士等级都有的围棋教学系统，使用者可以根据棋力选择适合的等级来玩，同时程式也会在过程中自动检测对手棋力强度，以提供棋士客制化训练。

这款围棋教学系统最大的意义，在于 AI 从打败人类棋士的里程碑，跃升至教学相长的层次。即使现在围棋 AI 已无人能敌，但人类仍未完全理解 AI 为什么这样下棋，甚至有些棋谱人类未曾看过；借由 AI 教导人类，一方面将能协助棋士挑战更强的对手，一方面也能帮助人类更理解 AI 的决策逻辑。

▲ 2018 年未来科技展中，红面棋王周俊勋和吴毅成团队研发的“围棋终身学习系统”对弈。（Source：交通大学）

今年 2 月，吴毅成再度刊登论文于 AAAI-20，发表团队改良 AlphaZero 的新方法，是名叫“PBT”（Population Based Training）的方法。过去 AlphaZero 主要以自我对弈，如同金庸小说里的周伯通“左手打右手”的方式训练，过程相当耗费运算资源。对此，吴毅成表示：“我们学校跟大公司比，相对来说没有那么多的资源，所以我们希望提出新想法，而不是单纯按照 AlphaZero 的做法训练，因为这样就永远追不上别人”。

这次改良的新方法，就是想看能否不只左手打右手，而是像“武林大赛”，同时训练十多组程式随机互打，以此获得更好的训练成果。比起自己打自己，与不同人互打更容易发现程式盲点。实验证明此方法确实能让 CGI 棋力大幅提升，对 Facebook 的 FAIR 研究中心研发的 OpenGo 围棋程式胜率，从原来 47% 提升到 74%，大幅超越 OpenGo，而 OpenGo 围棋程式是当时同规格的最强开源围棋程式。

PBT 方法的另一个好处，是超参数（hyperparameters）可在“武林大赛”后自我调整，自我对打的棋谱数量却无需增多，因此运算可维持稳定数量。比起自己打自己的传统方法，大都必须分别用很多不同超参数组合来训练，因此与其他发展团队相比，PBT 方法可省下将近 10 倍的计算资源。节省大笔经费支出之外，同时还能增强棋力，是相当创新且实用的做法，对未来其他应用问题也提供很重要的参考。

不断加强演算法的背后，吴毅成心中仍有一个清楚的目标，他希望这些研究出的新方法，能实际帮助生活应用问题。因此在围棋之后，他的下一步决定投入当前 AI 热门话题──电玩游戏 AI Bot 研发。

DRL应用类型二》强度够强、行为像人的电玩游戏 AI Bot

早在 AlphaGo 问世之前，2013 年 DeepMind 已在《Nature》期刊发表使用 DRL 技术教电脑玩 Atari 游戏的论文，并推出名为 Deep Q Network（DQN）的新演算法，可说是电玩 AI 机器人（AI Bot）的开山始祖。

▲ DeepMind 展示以 DQN 技术训练 A I玩 Atari 游戏的突破。

在电玩游戏，由于玩家讯息来自画面且移动自由性高次数更多，因此相较围棋、西洋棋的维度高出许多，这使设计难度更高。近年随着软硬件各方面技术的提升，电玩 AI 研究屡创佳绩，例如 2019 年 4 月，马斯克创立的 OpenAI 研究团队，在堪称最复杂的战略游戏《Dota 2》，以 OpenAI Five 的 AI 机器人打败职业电竞团队 OG，登上世界第一宝座；同年 10 月，DeepMind 也发表 AlphaStar 在高难度策略游戏《星海争霸 2》的成果论文，并表示 AlphaStar 的排名已超越 99.85% 人类玩家，再次验证游戏 AI 惊人的学习能力。

吴毅成表示，以游戏公司的立场来看，AI Bot 可扮演陪玩角色，当遇上组队人数不足、新手需要陪练等状况时，AI Bot 能根据玩家需求及时支援，同时引导玩家在挑战其他玩法，因此电玩 AI 的强度必须够强，才不会因为玩太差让玩家觉得无趣。

除了强度够强，AI Bot 的行为还要“合理”才行。所谓的合理即是 AI 的表现要像人类，包含移动方式、速度、平衡等方面，不会让玩家觉得 AI 行为怪异。另外从游戏品质的角度来看，许多游戏公司可能上架后才发现系统设计有瑕疵，如果 AI bot 能在游戏释出前先协助侦测弱点，对公司整体经营将有很大帮助。

目前吴毅成团队正在与游戏公司合作 AI 训练技术，未来可满足如拟人化、具备多种强度、多变行为等游戏 AI 需求，以及协助开发者进行游戏弱点侦测，将能有效降低游戏公司开发 AI 的门槛与资金，提升中国台湾游戏产业。

▲ 吴毅成团队以 TORCS （The Open Racing Car Simulator）训练电玩 AI Bot。TORCS 为开源的 3D 赛车游戏模拟器，可当作普通赛车游戏和 AI 研究平台。（Source：吴毅成提供）

电玩游戏可视为真实世界的模拟，透过在游戏环境大量练习，AI 较有机会发展出应对各类问题的能力，例如在 AI 表现较弱的“长期规划”、“合作”等方面加强训练，以此进展到真实世界的应用。目前吴毅成也正致力将虚拟环境的技术，整合至真实世界的应用，而实体 DRL 应用领域就是他锁定的下个目标。

DRL 应用类型三》整合虚拟与真实技术研究

实体 DRL 应用相对前述两类，研究更难控制且没有规律，包含自驾车、机械手臂、无人机等都属于这类。且这类问题还有一个特征，就是不能训练很多次。

以无人机为例，如果训练一次就摔下去，虽然可以得到负面样本，但耗费成本太高，无论学校或是企业都不可能如此大量测试与训练，因此会需要先在虚拟环境模拟训练，然后再将模型整合至实体运作。

吴毅成表示，过去这些实体应用如机器人研究已累积多年经验，精确度也达到一定程度，但大多需要仰赖人为编写规则或繁复工具才能取得有用特征，例如工件、机台的角度距离等，再利用演算法归纳以做出最佳决策。DRL 的研究并不是要挑战过去研究，而是希望从 DRL 的学习角度为机器人技术带来设计多样性。

过去厂商可能花很多心力设计一样产品，等样式出来后，再花时间将规则设定至合适的机器手臂，按照这个方式检测或夹取等动作。然而现在商品生命周期缩短，越来越多人希望“客制化”，商品设计经常要变化，因此产品如果要重新设计，相对付出的成本和心力就会很高。

而 DRL 研究可以切入的正是这样的角度。DRL 的适应性强，适合用来解决前述类型的问题，例如教它学习夹取方块，或许它还能再学会夹取三角形、圆球等其他物件，不会受限同一形体。虽然现阶段 DRL 技术要做到这样还有很长一段路要走，但这个研究方向将是未来制造业迈向 AI 时代的关键。

目前吴毅成正以自驾模型赛车为实验对象。2019 年 12 月吴毅成实验室学生朱咏嘉、陈源灏、黄劲博，代表中国台湾前往美国参加 AWS DeepRacer 实体赛车竞赛总决赛，击败众多强劲对手获得第三名的殊荣，成为该比赛成绩最优异的学界团队。

▲ CGI 实验室成员朱咏嘉在 AWS DeepRacer 大赛获颁季军。（Source：Amazon Web Services）

AWS DeepRacer 使用 18:1 的模型赛车，谁能最快绕行一圈且不出界，就是比赛赢家。这款模型赛车前方有相机负责撷取影像，车上装载英特尔处理器为神经网络的训练资料来源，再透过神经网络将决策资讯传到马达，以此操作车子的方向与速度。

模型赛车的自驾训练，同样要先在虚拟环境进行大量测试，才能正式上路。但 sim2real（从虚拟到真实）是这类型研究的难关，即使虚拟环境训练再好，碰上真实世界的光影变化、震动等状况，都有可能造成影像判断与决策资讯的混乱，使得车子失控偏离赛道。因此如何协助模型适应多元环境，成了 DRL 在实体应用研究的挑战之一。

经过这次 AWS 比赛，吴毅成团队在整合虚拟与真实的技术，有了相当宝贵的经验。当初为了衔接模型与实际环境的差距，团队特地在决赛前购入实体赛道，并自行开发多种分析工具，用来协助赛车在真实环境遇到的问题。中间曾遭遇严重反光、赛道印制错误等问题，过程相当惊险，所幸吴毅成与他的团队拥有坚持不懈的韧性，逐一克服这些挑战，才能在这场国际比赛脱颖而出。

2020 年，吴毅成团队将再次挑战 AWS DeepRacer，结合过去参赛经验与最新 DRL 研究成果，相信今年将会有更精彩的表现。

▲ 2019 AWS DeepRacer 决赛影片。

DRL 加速 AI 发展，年轻人该如何迎接 AI 时代？

“其实我觉得最近机器学习跟 AI 的成长，与当初电脑科学的成长有点像，有多样性与未来性。”吴毅成表示，电脑科学能随着时代演进带来千变万化的应用，像是过去的网际网络、云端、大数据的崛起，这些与电脑的发展息息相关，进而产生出各式的应用问题。对于未来想投入 AI 研究的年轻学子，吴毅成相当鼓励大家探索这个很有挑战的领域，也建议学生要比以往更看重数学的重要性。

“这块领域牵涉到很多数学、程式的技术，在数学方面有统计、机率、线性代数、微分方程等，几乎很多尖端的数学都会用到，对于许多对数学很感兴趣的同学来说，是一个很大的发展机会，同时也是个很有挑战性的领域”吴毅成说。

AI 改变世界的速度太快，快到许多人开始担心未来很多职业即将被 AI 取代，吴毅成也同意这是值得注意的，“说实在我无法预测未来世界的发展，当初我也看走眼，我一直以为围棋至少还要十年才能达到现在的状况，但是没想到就这样结束了”。

从棋类、电玩到机器人应用，以 AI 进展来说，吴毅成表示目前许多研究正在关注电玩游戏，这方面的发展会非常快；然而现阶段实体 DRL 的应用如机器人，还有许多复杂且高难度的问题要解决，要跨过这步仍然是很大的挑战。

所以说，科幻电影里机器人超越人类的状况还会发生吗？吴毅成笑笑地表示，虽然不至于立即发生，“但是我不敢保证它一定不会发生”。面对 AI 创造的新时代，其实最重要的是人类该用何种心态学习，如果原本的工作是研究如何使机器变得更强，那么相对来说比较不用担心这样的状况。先思考什么能力是 AI 无法取代的，才有机会在未来世界与 AI 同行。

（本文由人工智慧普适研究中心授权转载；首图来源：DeepMind）

延伸阅读：

交大生在 AWS re:Invent 2019 赢得首届全球 AWS DeepRacer League 季军

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 世界人工智慧