汤晓鸥:人工智能的中国式文艺复兴 原创很重要

2017-08-30 17:30:30 来源: 人民网——上海频道 热度:
人民网上海8月30日电 今天,“2017全球(上海)人工智能创新峰会”在上海徐汇西岸艺术中心举行。中国科学院深圳先进技术研究院副院长、香港中文大学教授汤晓鸥作了题为《人工智能的中国式文艺复兴》的主题演讲。
 
 
中国科学院深圳先进技术研究院副院长、香港中文大学教授汤晓鸥(张玮 摄)
 
演讲全文实录:
 
感谢组委会的邀请,我也非常荣幸有机会和我的老师Eric 同台做报告。今天我要讲的,其实和Eric一样,想强调的是原创。原创,需要长期的积累、大量的投入,而不是一夜之间突然我们就可以原创了。
 
说到原创,可能大家都在看一部电影《战狼2》,我没有看,很难评价它好还是一般。但大家知道,它的票房已经是53亿,超过了《蜘蛛侠》《变形金刚》等等。这在几十年前完全不可以想象,而且排行榜当中很多的电影都是全球的票房收入,而《战狼2》是靠中国一个国家的票房收入就做到了这点。可以做到这点有很多的原因,我不评价,因为没有看过。但有一个必要的原因,就是二字——原创。
 
这个电影十多年前是否会发生这样的情况?不会。那时候我们每人花不到1美元,可以在大街上买到任何的好莱坞大片,不会花十几美元去电影院看这个电影,那时候不会有原创。所以长期以来,我们没有自己的顶级电影创作。最近这些年,大家对原创技术,对IP的尊重,对法律的维护,我们才会有《战狼2》这样的电影。
 
说到电影,中国的电影发源地就是上海。像二三十年代的时候,上海的电影发展并不落后于全球。当时我们在文艺创作上,很多导演都是非常非常有名。我也无法讲他们为什么会做得这么好,大概还是对原创、对IP的尊重,所以当时才会发展得这么好。很高兴,今天又恢复到那样的时代,我们的电影又重新崛起了。
 
上海,肯定不仅是电影文化的发源地,也是现代文化的发源地。不仅是电影,比如中国的商务印书馆,100多年前就创建了,也是标志着上海的现代文化开始。这里面有很多原创的东西,我们知道大作家包括鲁迅等非常有名的学者,他们写了很多的文章、小说,那时候如果他们没有版权,相信他们也活不下去。原创也很重要。
 
今天我为什么要讲文艺复兴,14到17世纪它真正的起来,有政治的原因、宗教的原因,各种各样的原因,但有一个必要条件,也是对原创的尊重。因为有了这些,才有了但丁、达芬奇、米开朗基罗、拉斐尔、莎士比亚等一系列非常优美的艺术品。最后这个作品大家可能会有一些疑问,说文艺复兴时候好像没有见过这个作品,这是我非常尊敬的现代艺术家的现代艺术作品,这个作品叫纸上谈兵,是艺术家弹琴,坐在一卷手纸上,非常原创。我实在编不下去了,其实这是我儿子的作品,主要还是想强调原创的价值。
 
今天的人工智能,我们总是听到Google的声音,听到AlphaGo、自动驾驶等方面的事情,为什么总是听到Google的声音?Google前几年,一年的研发投入是120亿美金,这是烧掉的,不是整个公司的日常运营花费,正因为这样,才会有AlphaGo、自动驾驶等技术。2014年就愿意付6.6亿美金买初创的公司,这个公司只有6个人,没有任何的产品落地,就是用深度学习在玩游戏、下棋。他们会花这么高的价格来买这样的一家公司。如果在我们中国的商业环境下,我们花100万美金挖人,这样肯定经济效益更好。但是,就不会有后来的AlphaGo了。他们愿意投入,就是对原创技术、对人才的尊重,才会有后面的AlphaGo。Facebook也是2013年左右,深度学习刚刚起来没多久,大量投入深度学习实验室。
 
Eric提到了Mobileye,英特尔愿意花150亿美金收购这样的公司,其实没有什么,就是一伙人,一个教授带一群学生做研究。他们花钱收购,而不是挖人。
 
非常熟悉AlphaGo,在AlphaGo之前我和大家讲深度学习,没有人会听,也没有投资人关心。但是这盘棋下完之后,投资人回过头和我讲什么叫深度学习。这在全球引起了巨大的轰动,因为围棋这件事,是脑力劳动非常强的活动,机器可以战胜人类,并不是说机器无比聪明。为什么机器可以下棋?是我们定义的任务,我们让它做下棋这件事。它所做的训练都是基于棋谱,所以它不会想控制人类这件事,它的任务是人类定义的。所以,短期我们不用担心,长期也不用担心机器人控制人类这件事。真正轰动的效果是它的创新和深度学习的算法巨大的进步,在全球引起了大量的报道。
 
紧接着在中国做了一个AlphaGo2,和柯洁下了一盘棋,也下得非常精彩,值得大家关注,也会有一些新的技术出来。那周,媒体铺天盖地都是报道。但你看雅虎、国外的网站,会有一些报道,但报道一下就可以了,不是大家都靠这个活着。为什么?因为这是AlphaGo2。做原创,第一个做这件事的最重要。等窗户纸捅破了,捅第二下不那么重要了,你已经知道房间里面发生什么事情了。
 
再看一个地图,Deep learning的搜索次数,颜色深代表搜索的次数多,浅的代表搜索次数少。中国对这个词的搜索量最大。这是谷歌的搜索结果,谷歌在中国,老百姓是搜不了的,你要翻墙,这大概只有做技术的人才知道怎么做。翻墙的搜索量比全球的搜索量高很多了,可以想像这在中国有多热。但是为什么这么热?因为我们不懂,我们这么多年没有做原创技术。中国有句成语“不明觉厉”,因为你不知道怎么回事才觉得厉害。知道,还有一句话是“文人相轻”,你是文人,你知道他的水平和深度,互相之间会不服气。
 
前段时间Amamzon、IBM、谷歌、微软等组成了人工智能的联盟,当时我们觉得国外人工智能的发展已经非常非常超前了。这么热,我们如何竞争?Eric刚才讲了人工智能,这应该是全球的合作,是共赢。合作是双方都要做事情的,是双方平等的合作,不是说别人做了,你把它拿过来用,然后赚钱,这不是合作,叫盗版。
 
人工智能,我们是否落得很远?我从我们公司做的事情来讲一下,我们现在处于什么阶段。人工智能的发展历史我就不讲了,几起几落,前面的学者已经总结过了。真正的落实是2011年,深度学习算法在语音识别方面取得重大突破。后来才有了2013年谷歌、Facebook的大量投入,到现在的直线上升。
 
2011年我们开始做深度学习,当时应该是最大的华人团队。2011到2013年全球最顶级的三次相关会议,29篇文章涉及到深度学习,14篇由我们一个实验室做的,做了全球的一半。
 
最近两年,谷歌、Facebook开源了AI平台,相当于AI的操作系统。我们最早的时候没有Torch等,我们经过多年的研究,做出Parrots系统,我们把几百块的CPU连接起来。训练了1207层的深度学习网络,林教授领衔在做,他是Eric三年前毕业的博士生。
 
我们和Facebook、Google竞争的例子,就是人脸识别。2014年Facebook发表了文章,我们同一时间发表了另外一篇文章,抢在Facebook之前,第一个用计算机做人脸识别超过人的眼睛。这其实和AlphaGo一样的事情,在人类定义的一项任务上,机器超过了人类。我们当时用了20万的人脸数据做的。平时做研究,一两万的人脸数据就很了不起了。用了20万的人脸数据,我们觉得我们会碾压所有的人。还没有开始碾压,发现Facebook用了750万的数据,数据量上把我们碾压了。但是计算的结果,我们超过了他们,连做了3、4个算法,最后做到了99.5%,战胜Facebook。在中国,就会出现大批的公司重现实现一下算法,开始落地。
 
Imagenet,2012年有很大的突破。2014年是最大的一次比赛,38个团队,包括Google、伯克利、牛津等实验室都参加,我们取得了全球第二名,输给了Google。当然,Google也是竞赛的组织者,我们赢他也比较难。
 
2015到2016年,ICCV、CVPR、ECCV三个顶级世界会议上发表的文章数量。微软124篇,商汤和我们实验室一起76篇,我们是整个亚洲唯一前20名的团队。
 
最后三位是百度、阿里、腾讯,三家的估值超过了9000亿美金。三家公司加起来的文章数是13篇。你想用AI作为你的未来,要投入,要做原创,而不是拿来的。我们取得的这些成绩,也得到了国际上的承认。
 
我们非常荣幸,和MIT、伯克利、谷歌等实验室,被评为前十大人工智能实验室,我们是整个亚洲唯一的代表。我讲的这些是学术上的研究和成绩。如果只有这些,其实我们没有数据,没有应用,我们的人也很少。一开始,会抢跑一下,领先一下,长时间的竞争我们无法战胜Google这样高投入的公司。我们也要落地,很幸运,通过积累,我们现在有120位深度学习的博士,核心人员体量和Facebook、Google差不多,我们是唯一一个深度学习平台公司。非常荣幸,这次《华尔街日报》报道我们单轮融资取得最大一笔AI的创业公司融资,4.1亿美金。以前是我们几千万美金,打一场看起来没有希望的战争,现在我们补充进了弹药。到今天有400多家顶级的大型客户,包括中国移动,包括银联,包括华为等巨型公司。400家公司意味着过去一年半的时间,每天签约一家公司。我们用人脸识别在做芯片、医疗、自动驾驶、金融等14个行业的研发,和14个行业的合作伙伴合作,我们会反馈回来大量的应用需求,形成完整的闭环、正循环。很高兴,得到了国家的承认。去年的双创活动中,很荣幸和百度被选为代表中国人工智能的企业,参加北京地区的展览。
 
最后还是用一部电影来结束演讲。我这个年龄,对《上甘岭》是很了解的,当时打的最后一场战斗,也就是一个连。我们120个博士,也差不多就是这样的人数。如果我们再守不住“上甘岭”,人工智能的“三八线”也就基本结束,谢谢大家!

责任编辑:靳玉凤