第四范式首席科学家杨强教授:未来人工智能会让二流科学家失业

文 | 赵云峰
公众号 | 机器之心

杨强,第四范式联合创始人、首席科学家。杨强教授在人工智能研究领域深耕三十年,是国际公认的人工智能全球顶级学者,ACM 杰出科学家,两届「KDD Cup」冠军。现任香港科技大学计算机与工程系主任,是首位美国人工智能协会(AAAI)华人院士,AAAI 执行委员会唯一的华人委员,国际顶级学术会议 KDD、IJCAI 等大会主席,IEEE 大数据期刊等国际顶级学术期刊主编。杨强教授在数据挖掘、人工智能、终身机器学习和智能规划等研究领域都有卓越的贡献,是迁移学习领域的奠基人和开拓者,他发表论文 400 余篇,论文被引用超过两万次

近日,机器之心对杨强教授进行了专访,他对迁移学习、人工智能行业与技术进行了深入讲解,并对人工智能从业者提供了众多有价值的建议。


杨强教授

关于迁移学习

机器之心:您目前主要从事哪方面的研究工作?

杨强:我现在做的一项研究是把深度学习、强化学习和迁移学习结合起来,让深度学习有目标。基于有目标的延迟反馈的机器学习在现有的深度学习中做的不是太好,比如 RNN 能够解决 序列到序列的学习(Sequence to Sequence Learning),但它比较短视,没有最终目标和最终反馈。这就会出现很多问题,比如说推荐系统就没有办法在对话中有效地,自然地使用。同时,在自然语言对话中,只会出现毫无目的的闲聊,使得用户体验会不太好。要改变这些问题,就一定要引入强化学习,这样才可以进行推理并具有长期的目标。同时在这些算法之上再加一个迁移学习的算法层。这样,可以把一个通用的学习模型「个性化」到每个人不同的需求和兴趣上。这是我们目前所聚焦的研究领域。

机器之心:提到不同学习方法的结合,ACM 8 月份 CACM(communication of the ACM)刊文《强化学习的复兴(Reinforcement Renaissance)》,深度学习和强化学习结合的深度强化学习带来了更好的表现,您之前也在演讲中提过两者的结合,能具体解释一下吗?

杨强:强化学习原来特别地难以有效的扩展,这是因为它的状态空间太大;另外,这些状态,都是凭某个专家的经验来人为地定义的,而并不是学习出来的。但是,现在通过和深度学习的结合,我们可以把强化学习的目标和反馈拿出来,把规划的目标转化成一个学习的目标,即 lost function ,而用来训练一个「端到端的」深度学习系统。DeepMind 在这方面就做的比较成功。这样,深度学习就有目的性了,因为可以得到有效的反馈机制来帮助学习。

但是,我们也要看到,这样做了以后,缺点也随之出现——比如说 DeepMind 那个模型,它是不可解释的,因此很难把人的经验放进去,也很难在这个强化学习模型上面做任何的「知识短路」,即个性化。我们看到,迁移学习是在状态空间上的一种知识短路,这是我们的一个新发现:即迁移学习更容易在知识结构上从小数据中学习。这样,在应用中,可以先训练一个深度学习和强化学习的合并模型,然后用近似的方法把状态显现化,最后,再在这个近似空间的转移中做一个迁移学习模型。这就是我们现在所做的研究。

机器之心:能否介绍一下迁移学习这几年发展的亮点以及现阶段的研究难点,比如您之前提到过的「两个领域衡量标准」问题。

杨强:迁移学习在这几年有挺大突破,比如它和深度学习的结合。迁移学习的一个发现就是用特征做迁移效果非常好,关键是怎么找到这些好的特征将两个领域给结合起来,换句话说,就是要找到合适的迁移机制。我们可以通过什么把知识从一个领域迁移到另外一个领域呢?我们发现最好就是找到一些比较通用的特征,比如说在大陆这边,汽车的驾驶员坐在左边,而在香港驾驶员坐在右边。那么,你怎么让一个大陆的驾驶员一来到香港就马上就适应,而回到大陆又可以迅速调整回来,做到左右逢源呢?那就需要找到一个知识的表达方式——即驾驶员和马路的关系的表达——司机的位置如果是靠路中间,那不管在大陆还是在香港都肯定没错。而这种通用的表达方式就是深度学习可以帮你找到的。当你把两个不同领域都作为输入给深度学习系统,它会帮你找到一个共同的不变的表达,然后就可以通过这个不变量来做迁移。

所以,迁移学习在最近的一个进展就是,通过深度学习发现不同隐含层有不同的迁移能力,比如说,在音频上偏高层就比较容易迁移;视频上偏低层比较容易迁移,但每一层能迁移的知识和量不一样。这样我们对迁移能力就能有了定量认识,又往前走了一步。这只是一个很好的研究方向。但是迁移学习目前比较难的一点,是衡量两个领域之间的距离。过去的研究,学者们只是靠纯统计的方法。而现在,有了深度学习以后,就可以把在不同层次的特征拿过来,发现不同层次的距离是不一样的,而利用这些不同的「知识点」来理解迁移学习的能力。这一点是一个新的突破口。

机器之心:最近有一项关于用迁移学习研究非洲贫困的案例,斯坦福研究者回避了其他收集成本过高的指标,而是使用卫星图像获取的灯光信息来判断贫困程度,您如何看待里面的技术,以及此项研究本身涉及的意义呢?

杨强:是的,这是个很有趣的案例。在这个案例里,灯光就变成了一个不变量。它能反映贫富,又能反映路段,只要预训练灯光,就可以把这段知识迁移到那段去,这是一个很好的例子。但有特别需要说明的一点是,这是其中一种迁移学习的手段,叫传递式迁移,是说从 a 到 b 到 c 三个领域的传递,这个链条可以任意的长,从 1 到 N 。其实我们日常中都在用这种方式,比如学生第一学期上的课和最后一个学期上的课就可以看成一个迁移链条,上完这门课再上下一门,很多知识就可以被迁移和应用,新东西学起来就觉得容易,课程一个个过来就可以毕业了。我们人类已经在使用这种方式——把一个难的问题分解成一系列问题。

机器之心:目前迁移学习的研究成果在哪些领域应用的比较好?

杨强:迁移学习在好几个领域都能发挥作用,比如说电商上面的推荐,你做了一个领域的推荐模型,当出现一个新的领域时,就可以迁移过去,这两个领域有区别,但有些是共通的。

第一个应用的例子是推荐系统里的一个非常棘手的问题,就是「冷启动」。就是说,在没有任何用户数据的情况下,我们如何能够让系统推荐的结果还不错?一个做法是,可以从一个类似的领域迁移过来。第二个是「个性化」:每个人都希望在手机上了解我们的智能助手,「懂我」的意思就是已经基于你的需求进行个性化了。使用迁移学习就可以利用你的数据从一个通用模型迁移到你的个人模型。第三应用领域是小数据,大家都知道大数据可以用深度学习做,但大数据的获取只有少数大公司才能做到,而大部分公司是没有这个资源的,他们只有小数据,有个办法就是从大数据获得的模型往小数据迁移。第四个是可以用在隐私方面,我们如果能把一个大数据的模型实现本地化。这样,就没有必要去把本地隐私的数据上传到云端,而个人隐私就可以获得保护,我觉得这是解决隐私问题最有效的一个方式,如果迁移学习能解决的话,那加密、利用随机扰乱等技术来保护隐私的办法都不用做了,因为这些方法对模型的效果影响很大。

机器之心:关于隐私,您在 2015 年发了一篇关于差分隐私(Differential Privacy)的文章。随着您刚才提到的「个性化人工智能」的推进,敏感数据的隐私问题日渐受到更多关注。您能基于当时那篇文章讲解一下吗?

杨强:这是当时在华为诺亚方舟实验室和上海联通合作的一个项目。我们在电信数据的挖掘上,发现数据挖掘中一个很受追捧的概念就是「差分隐私」技术。这个概念在学术界很流行,但我们发现在工业上,它的应用却很少。这个算法在实际问题中用不了的原因,是它没有考虑一个重要因素:一方面要保护隐私,另一方面要保证模型的表现不下降。如果保护的多,那模型的效果就会下降的就特别多,而这种效果的下降是可以用钱来衡量的。而隐私如果也能换成钱,那么,就可以在这两者间做一个权衡。但是,从来没有人这么做过。所以我们当时写了一篇论文来指出了这一点。也就是,过去大家一味的去关心隐私其实是一种偏颇,而隐私的问题应该把效果和价值来综合来考虑。差分隐私在学术界是一种很优秀的做法,但可能不适合工业界,因为在工业界需要从效果总体上进行权衡。

机器之心:迁移学习可以实现「举一反三」(和人类智能类似),这好像与我们要实现的人工智能终极目标最为相似,那如果接下来人工智能要取得突破,迁移学习会成为其中最关键的路径吗?

杨强:迁移学习只是路径之一,应该说,更重要的是表达学习,即学习知识的表达。迁移是知识表达的一个试金石:如果表达找的好,那就迁移的好,深度学习是表达的一个路径,但不是唯一路径。如果要把知识表达进行分解的话,其中的迁移能力是特别重要的,比如能做比喻学习(learning by analogy)等。

关于人工智能行业

机器之心:您在大企业研究院(华为诺亚方舟、微信联合实验室)、高校(HKUST)和创业公司(第四范式)进行研究,这些机构在研发方法和目标上有何异同?

杨强:在工业界应该是应用研究,更多着眼把一个技术实用化以产生价值,而这个技术最好今天就解决问题;大学是长远的,更理论化的研究,目标比较高远,大学的研究所应该做明天要做的事情。现在我看到一个现象是,公司有实验室在做大学的事情,大学有实验室做公司的事情,我预计这些很难成功。因为他们都在做别人应该做的事情。如果公司做纯高校的事情一定长久不了,他们要产生价值,公司无法去养这么多学者。

机器之心:您提到过人工智能的五个条件:清晰的商业目标、高品质的大数据资源、清晰的问题定义和领域边界、了解人工智能跨界人才、强大的硬件计算能力。「第四范式」这个公司目前在做的金融行业对此非常符合,能否透露一下,公司下一个重点拓展的行业是什么?

杨强:金融可能是我们的第一个点,但第四范式的重要目标是做一个平台,这个平台能够让大众变成人工智能应用者,大家只要自己有数据和应用问题,想利用这个平台,都可以来用。为什么先选择金融领域,传统金融领域需求比较大,门槛比较高,如果在这个领域成为一个领先者就很容易保持优势,有了这个优势之后可以铺开做。

机器之心:科技巨头对人工智能创业公司的收购越来越频繁,这是否会加剧您提到的「人工智能是富人的游戏」这种现象?对于第四范式来说,考虑过被巨头收购的可能吗?

杨强:这肯定会加剧,相信一些创业公司聚集了一批优秀人才,但是也存在有些创业公司的目的就是被巨头收购,最后逐渐就变成巨头一统天下了,小的诸侯国被吞并,秦朝统一六国,这并不有利于百花齐放。

那对于第四范式来说,我们汇聚了机器学习领域的优秀科学家、工程师和咨询专家,从实战中不断优化研发与服务水平。目前第四范式在工业界发展非常好,我们也希望它在科学上不负众望,能够规避人工智能被个别的集团所垄断的风险、从而引导人工智能走向大众,为社会所用,这也是我作为一个科学家的使命。

机器之心:现在看到有种趋势,比如说从论文发表来看,公司在人工智能的某些前沿研究上已经超过了高校。

杨强:因为公司现在有资本有数据,所以吸引了很多人,这些人是冲着资源去的,比如说数据和机器,这是现在的一个阶段。但是比如说理论研究问题,目前我们对深度学习本身的理解还不够深,如果要解决这个问题,就不应该在公司做。但是你要去实现大规模的深度学习系统,利用大数据去做一件前人没有做的事情,那一定要在公司做,在大学做不了。

但特别要指出的是,我经历了很多公司,发现它们并不是像外界所想的那样就一定有数据,很多数据其实是大学来找更加方便,因为大学是中立的、非盈利机构,大家更乐意把数据给出来。

关于人工智能技术

机器之心:近期机器学习领域有哪些让您觉得很有趣的研究吗?

杨强:机器学习领域里一个很强的特点是:可以把感知的东西学到,但很难推理。所以我觉得一个挺好的方向是让机器学习去做推理。一个例子是 Facebook 做的机器阅读(Machine Reading),它可以在读的文章里做推理。虽然它很简单,但指出了一个方向——加入注意力模型之后就可以做符号推理。但如果能够 scale 到一阶逻辑去做大规模推理和定理证明的话(也是我们目前在做的研究),还有很长的路。

现在,开始有一些工作把规则,逻辑和深度学习相结合,这可以起到解释模型和获得知识的作用,把人的知识赋予到统计学习的模型里,这是很好的方向,但目前那些方法还不够,我们希望在这方面多做一些研究。因为规则是在任何一个垂直领域都必不可少的,并不是任何东西都需要从零开始学。规则的好处是准确和通用,坏处是缺乏覆盖的广度比较有限,而统计学习可以应付各种例外的发生,如何把这两者更好的结合起来是一个很有趣的方向。

机器之心:人工智能如果取得继续突破的话,是否需要把规则和统计结合起来?

杨强:统计和逻辑的结合在人工智能的发展中必不可少,AlphaGo 就是这样一个例子,它非常深入的将搜索和学习这两者结合了起来。像传统符号主义的蒙特卡洛树搜索,基于统计的深度学习(比如估值网络和策略网络),然后在这两者的结合之上再加上强化学习。现在看来,虽然这事是三者比较生硬的结合,但已经取得非常大的成绩。再下面,就是看能不能把人工智能做的像人脑一样有效,不是各自独立的三块,而是在一起的。如何用一个机器模型就能同时做符号搜索,深度学习和强化学习这三件事,这是一项很有挑战但非常有趣的研究。

机器之心:那人工智能需要从神经科学领域获得更多灵感和线索吗?

杨强:是的,确实可以获得很多的灵感和线索。蒲慕明院士在 2016 中国人工智能大会的演讲中介绍了很多神经科学的发现。首先,他们发现在生物领域也存在 BP 算法的现象。如果这个神经学的发现启发了人工智能的研究,那将就是一个完整的故事,但是,神经学的这个发现是在计算机领域提出 BP 算法之后发现的。今天,这个发现也会对人工智能有启发。其次,人工智能里的最小计算单元往往是同类型的神经元,但蒲慕明院士认为,人脑的神经元并不是都是同类的,而是每一类有各自专门功能的。如果我们在人造神经网络中设计这样一些神经元种类,也将是很有趣的研究问题。第三就是如何学习和计算一个「忘记机制」神经学发现,人脑是在进行有选择的忘记,而这种机制是智能必不可少的体现。但是,在我们人工智能的学习系统里,并没有特别设计这种忘记机制。

另外,联接主义在人脑研究中大行其道的,但在计算领域并不是如此,深度学习可能是一个例外。但其他的——比如说符号主义的搜索——大部分都是孤立的,是单 CPU 大规模算法在进行,而不是并行,这些都是需要探索和发现的。但我们回来说,人工智能可以借鉴人类大脑,但不应该被人类大脑所局限。我们最后可能会发现,新的人造的智能结构,可能人脑也没有,(但可能外星人有)。所以,可能还有一些新的智能算法在等待我们来发现。如果真是那样,那也不错。

机器之心:对话系统是现在比较热的研究领域,科技巨头也都提出 bots ,目前在这方面还存在哪些研究难点吗?

杨强:对话系统的一个难点是把目标引入,如果你只会聊天但不会实现目标,那就没有商业前景;另外一个目标是如何把规则和统计学习结合好,因为有些特殊领域是需要有规则来规范的。第三个目标是怎么样把个性化引入,这就是迁移学习所应该发挥的价值。如果把三者统一在一个系统里完整实现,可能还需要有很长的研究,如果能做出来,那就是解决对话问题的一个非常优美的方法。

关于迁移学习,去年 Science 那篇文章 Human-level concept learning through probabilistic program induction 里提到的单个例学习,即 one example learning。这实际上是一种迁移学习的做法,他们把一个问题分解成参数学习和结构学习两种,他们发现如果参数学习如果能够从别的地方迁移过来,那只做结构学习就可以了,而结构学习恰恰又特别好用,只需要一个例子就可以解决了。所以前面用了迁移学习,后面用了结构学习,就把 one example learning 实现了,是这样一个 trick 。这给我们带来一个很好的概念,就是说在对话系统中,你就可以把自然语言的结构学习和参数学习分开,采取分而治之的办法。

机器之心:比如说在自然语言处理方面。那迁移学习应用自然语言方面会有独特优势吗?能实现不同语言间的迁移吗?

杨强:可以实现不同语言之间的迁移。很多迁移学习的任务会比机器翻译的任务要简单,机器翻译需要很高密度的数据来对应每一句话,你要收集很多的平行语料,但是有很多学习任务并不需要做语言之间的关系,比如说分类、聚类,像这样不需要机器翻译的,就可以用迁移学习来建立两种语言(可以看成是两个领域)之间的共同表示,就是一个中性语言,通过这个中性语言进行迁移。

机器之心:Chris Manning SIGIR 2016 主题报告 Natural Language Inference, Reading Comprehension and Deep Learning 中有一页有一个形象的「压路机」比喻,列了深度学习在哪一年会对特定领域的传统算法进行「碾压」,比如说语音是在 2011 年、视觉是 2013 年、自然语言处理是 2015 年, IR 是 2017 年。您对此怎么看?KDD 应该在哪年?

KDD(数据挖掘)和 IR 是有区别的,IR 是赋予机器搜索的能力,自动化为主要代表,主体并不需要引入人,所以用机器学习比较合适。但是 KDD 的最终目的是为人服务,所以是离不开人的。因为 KDD 和数据挖掘中没有人,是全自动的话,那就是机器学习了。所以,如果是为人而发掘知识、为人做解释,就需要比深度学习更多的东西:虽然里面很多东西可以用深度学习来解决,但深度学习里有很多东西是不可解释的,所以从这一点上来,仅仅用深度学习来做数据挖掘说是不合适的。在和人打交道这一方面,深度学习不可能碾压 KDD 。数据挖掘是为人做数据分析的辅助工具,而机器学习则是力图模拟人的行为。对于两者的区别,我做过一个比喻:你训练一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘。如果有一天,它化妆成狼外婆跑了,那这就是机器学习。

但是,深度学习确实可以取代某些算法。另外,我觉得 KDD 和 IR 的基因还是不一样的,这得看原领域和深度学习的重合度:做 KDD 研究的很多人是从数据库过来的,他们是的目的是管理信息,这就不能仅仅引入机器学习;同时,KDD 的有些人是机器学习过来的,他们可以引入深度学习。但,也有心的问题:那就是模型的可解释性怎么办?如何向人类解释模型的功能和结构?因此,KDD 为深度学习引入了这样一个契机——不是深度学习碾压 KDD,而是 KDD 和深度学习一起来发挥作用。

机器之心:机器学习对基础科学研究有什么重要的推动和价值?许多科学研究现在面对着海量的实验,观测数据,比如天体物理,粒子物理,生命科学,材料科学等,机器学习会在基础科学研究中发挥重要作用吗?

杨强:机器学习对基础科学的发展应该有很大促进,在这些传统科学领域,很多人可能现在没有意识到人工智能可能带来的影响,但我们看到,深度学习的出现,只是计算机出现以来的数字革命中的一环。下一步到底要到哪儿去?是不是有可能要把科学家变成「数据民工」?比如说,把天文学家就变成操纵望远镜的天体数据的民工,把生物学家变成摆弄小白鼠的生物数据的民工?虽然这是一个未来可能出现的极端现象,但从计算机革命的角度来说,这个未来并不是不可能!当然,科学家可以去创造一些理论并去验证它,但这样的科学家的助手们可能会变成一些机器人。所以,整个科学研究会出现一个本质上的变化。

机器之心:戴文渊之前在介绍「第四范式 · 先知」平台时,提到这个平台的目的是让数据科学家「失业」,那人工智能会不会让科学家失业?

杨强:人工智能会让很多二流科学家失业,一流科学家还是很安全的。

对人工智能从业者的建议

机器之心:您对目前行业内深度学习热有什么看法?年轻从业人员应该如何对待这种现象?

杨强:深度学习过热不是一个坏事,我们也不应该拒绝。对于年轻人来说,大家要用平常心来看:这是一个学习算法,学习能力比较强,能够容纳更多的训练数据,我们发现它能做过去想象不到的事情,现在还是有很多红利去获取。所以年轻人如果要做的话,要尽量多动手,多编程,多了解内核的东西,而不仅仅把深度学习当成黑箱来用。

机器之心:您认为国内人工智能领域在科研和产业上还有哪些缺陷和不足吗?

杨强:我觉得国内的人工智能研究不能太跟风,对自己的研究理念和创新要有信心。在科研和产业都是如此,要创新,尤其是在大学的研究者,每个大学的教授应该是独树一帜的,自己领先一个子领域,而不是跟着别人去做。对公司的要求?公司要首先考虑生存,但在产业上也不要以为人工智能可以包罗万象。

机器之心:您有着天文学和计算机科学的复合背景,研究天文学的这段经历对您后续研究机器学习有什么帮助或者启发呢?您的物理学专业背景为您后来人工智能领域的研究工作重提供什么样的思维方式,思维习惯等方面的借鉴和帮助?

杨强:最大的启发是知道一个问题要换几个不同的角度去想,物理学家特别容易这样,他观察一个东西,可能就联想到十万八千里,看到行星就想到原子。这种联想能力是物理学里特别流行,但在计算机领域不是这样,培养一个学生出来很好的编程,拿竞赛金牌,他都不一定有联想能力。所以我特别受益于这种训练,这可能不仅仅是从物理学来的,而是从跨领域来的,所以我建议年轻人可以接触最起码两个领域。

机器之心:您有本关于介绍如何做学术研究的著作《学术研究——你的成功之路》,对于人工智能领域的学术研究,您能否给研究者提供一些建议?

杨强:任何学科都有一个系统性,对于研究我提过五点,这个对人工智能也适用。第一个就是研究的问题有用,重要。第二是这个问题可以给专业外的人都能说清楚,能自己很简洁地表达出来,能讲明白。第三个是要说清楚这个问题为什么难,就是问题到现在还没有人做过,不知道怎么做。第四点是,虽然问题还不知道怎么做,但你知道怎么把问题进行分解,分成一段一段来做,每个阶段都有一点进步,就是现在网络上说的「小目标」。第五是得有数据来验证你的想法,否则就是空想。这五个条件对学术和商业都适用。如果你觉得一个研究特别好,但你没有办法拿到数据,那你一开始就不要花时间做。另外,补充一点特别重要的,大家要明白别人做过些什么,要看很多论文,并能对过去的工作有所批判。

机器之心:您在学术界和产业界都取得了非凡的成绩,这和日常的时间规划、研究技巧和学习方法密不可分,能分享一下这方面的经验和心得吗?

杨强:时间规划,研究技巧和学习方法,这些都会因人而异,但是,学术和工业的成功有一个共同点,就是——我特别受益于锻炼身体,再忙也要抽出时间来锻炼身体。中国的学者到国外去,要给人一种很健美的形象、要有精神。而且我们会发现如果我们经常锻炼身体的话,很多时间规划的问题就迎刃而解了,因为锻炼之后你会发现头脑特别清楚,会注意到很多细节,分清楚事情的轻重缓解,之后就特别容易去做了。总之,在锻炼身体之后,以前你觉得特别难的问题都不会觉得是问题了,原来觉得特别烦恼的事情也没有了。这是给大家的一个建议。

 

未经允许不得转载:氢网 » 第四范式首席科学家杨强教授:未来人工智能会让二流科学家失业

支付宝扫码打赏 微信打赏

欢迎点击上方按钮对我打赏

分享到:更多 ()

评论 抢沙发

评论前必须登录!