今天的IT领袖峰会上,马化腾和李彦宏两位工程师出身的IT领袖又碰面啦。这次的主题是:“在人工智能时代,我们是怎么挖微软研究院的人?”
这当然是一个玩笑,这次对话的主题是《人工智能:中国机遇与挑战》,对话四方包括百度CEO李彦宏、腾讯CEO马化腾、微软公司全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋,还有神州数码控股董事局主席郭为。
不过,随着几大巨头的人工智能布局逐渐深入,确实他们对人才的需求也越来越多,向来被业界称为“国内科技圈的黄埔军校”的微软研究院,继续担任人才的输送中心。在现场,三位来自微软、百度和腾讯的高管,也就此事调侃起来。
马化腾还说,腾讯在西雅图建了一个研究院,因为微软的很多研究人员不愿意离开西雅图。沈向洋也说,微软人工智能事业部有七千多人,但还在不断招人,因为百度和腾讯一直在挖他们的人。
为何布局人工智能?
小马哥也是越来越重视人工智能了,最近腾讯的围棋AI“绝艺”,也因为赢得了日本的围棋大赛爆红,而且跟阿尔法狗的负责人黄博士不同,腾讯做“绝艺”的团队,没有一个人懂围棋。
所以主持人也问起了小马哥,腾讯为什么重视人工智能?
马化腾非常谦虚地说,其实百度在人工智能走得更前,腾讯还是落后。不过他认为,不仅是腾讯,其实在内部,大家都在结合自己的业务去AI的研究和应用,比如腾讯在微信中大量的人脸图片识别,媒体广告的精准匹配。
一年前,Google阿尔法狗的论文出来的时候,腾讯的团队也开始去探索,后来Deepmind的论文出来之后,也有很多公司用了深度学习。他说,“绝艺”的成长,不同的在于,它一直得到了很多国家级棋手的支持和陪练,也得到了很多国家级专家的支持。“虽然今天绝艺确实获得了一点小成功,我们不能太欣喜,毕竟是站在别人的肩膀上的,如果这个论文没出来我们也做不出来。”
他还认为人工智能的可怕之处在于,它可以利用后台的云计算,自己不断地快速学习,现在阿尔法狗可能对围棋的理解已经超越了人类那么多人,就像开车一样,你可能不需要教他怎么开车,只需要做一个模拟器,让他自己在无数次的撞车中得到反馈,自己学习,我认为这个是值得我们思考的。
同时主持人也问李彦宏,为什么会那么早开始布局人工智能?
按李彦宏的说法,这就跟百度做搜索很有关系了。他说,百度从基因上来说,就是在做搜索,其实本质上就是一个机器区揣测人的想法的事情。他回忆,大概是在2011年,那时陆奇还在微软,他告诉李彦宏,微软的深度学习部门已经发展到可以应用的阶段了。
百度自己也发现,深度学习在图像检索里效果很不错,他开始在思考,这究竟是一个仅仅在图片搜索这个垂直领域,还是一个趋势。他觉得它是代表一种趋势的,对很多其他计算机科学要解决的问题都是非常有用的,因为随着互联网这么多年发展,数据越来越多,越来越丰富,计算资源越来越便宜,越来越强大。他也知道,人工智能发展五十年前,一直没有人看好,其实当年他在美国读书的时候,很喜欢人工智能这门课,但是教授告诉他,学这个找不到工作。不过,后来他们慢慢发现,原来以为没有用的东西,后来有用了。
因此,他说自己食言了。本来他认为,作为一个商业公司,百度不应该去做研究院,应该去跟产品和应用部门紧紧结合。可是人工智能不一样,它需要长远的布局,所以百度开始组建研究院,吸引和招募人才。
人工智能是模仿人脑或者仿生,还是拥有全新的思维方式?
不过说到人工智能的发展,还记得就在这场高端对话之前,马云才提出了一个观点,认为不应该讲Artificial Intelligence,应该是Machine Intelligence,现在的人工智能,都是在模仿人脑如何工作,但实际连人类自己,对人脑的了解和开发都不超过3%。机器应该拥有自己的独特的思维方式,而不是永远模仿人类怎么工作,只有这样两者结合起来工作,才会发挥更大的作用。
于是,主持人也观察到,比如机翼、雷达也好,这些都是一些仿生的设计,甚至是现在深度学习的神经网络。
就此,他问了几位IT领袖一个问题,他们认为人工智能是模仿人脑或者仿生,还是要拥有全新的思维方式?
小马哥说,我们当然是希望有一些新的东西,但现阶段,还是应该务实点,现阶段还是通过仿生的阶段。在某一些垂直的领域尝试,要做一个通用的AI非常难,包括围棋也是选一个非常窄的领域,甚至一旦规则变了,几乎就要重新训练,之前的训练全白费了。
李彦宏则并不同意,现在的深度学习是在仿生,因为“其实我们也不知道人脑是怎么工作的,怎么去模仿呢?神经网络只是为了让大众更明白研究人员在做什么的一个比喻。”不过,他确实认为,深度学习只是在很初步的阶段,我们要达到人脑的程度,还要很久很久。他还解释,其实这个很久的意思,我认为是永远不可能的,甚至像之前以为一位演讲嘉宾朱民说的,将人工智能分成三个阶段,弱人工智能到强人工智能,再到超级人工智能,第二个我都觉得不行,永远不可能。
沈向洋很赞同李彦宏的观点,他认为,目前脑科学的发展还很初级,限制了人工智能的发展。计算机冯·诺依曼的结构,跟人脑的结构本来就完全不一样。他相信,随着人工智能发展,未来会有越来越多学计算机的人去做研究脑科学。
最后,我们都知道,人工智能之所以在今天快速发展,有三个基础:海量数据、强大运算能力和深度学习的发展。
在中国,掌握着最大数据量的,莫过于BAT了,百度做不少开放平台。主持人突然就顺势小马哥,你们腾讯有那么多社交数据,有没有可能把数据分享出来,让创业公司用?
马化腾依然回答得非常实在。他说,“这个问题我们在内部也有激烈的争论”,场景对于研究确实很重要,很多研究都需要实际运转数据的支持,不过,不是有一堆数据就能用,数据还需要清洗和标签化,才能让AI去学。这是一个非常庞大的工作量,甚至还是需要人去用很笨的方法打标签。运算能力对人工智能也很重要,需要用云的资源,所以腾讯也在做云。
更紧缺的,就是人才了,他说,一年前腾讯也很缺人才,如今逐渐招募了不少。为了招贤纳士,腾讯还在西雅图也设立了一个实验室,“因为很多微软的人都不愿意离开西雅图,因为我们就在旁边设了一个研究院”。
设立了研究院之后,腾讯内部也在问各个业务线,数据能不能给研究院做研究用。但是,其实业务部门本身,也希望能招人去处理和挖掘利用自己的数据,而不是全部分享给别人。因此,即便单论公司内部,也会有这个问题。
第二个则是用户隐私问题,因为腾讯的社交数据涉及大量用户隐私,如何脱敏是个很关键的问题。要清洗到什么地步才能用,还要看看。最后他总结,数据的标签化和清洗,业内也有很多人也都在努力,很多公司拿着一堆裸数据,也不知道怎么办,所以我们必须先把数据整理过才能用,他说这还是一个很长的过程。
附全程对话实录:
吴鹰:先从马化腾开始。刚才朱民演讲中特别举了你们这个团队的例子,13个人真的是没有一个人是会下围棋的,腾讯有一个700多人、成立了大概一年多的人工智能团队,专门研究人工智能,他们在很短时间内聚集了很厉害的一些专家。
能不能跟我们大家分享一下腾讯为什么在人工智能上这么重视,还有你对人工智能的看法和行业的看法?
马化腾:其实李彦宏是人工智能走得更前了,对腾讯来说,我们还是落后不少,只是去年刚开始成立的部门。
当然在我们所有BG内部结合它的业务形态都有在落地,像我们微信里面,超过上百亿条消息,包括我们图片、特别是做社交网络,里面有人脸数据图片绝对是天文数字,每天高达上十亿张有人脸照片。
这方面的技术研究在各个BG有相当长时间研究,包括后台数据分析、广告匹配都用了人工智能技术,只是大家感受不到。因为他在后端。我们在前端也希望做出一些产品,刚好一年前Alpha Go它的paper出来,通过人机对战让全世界对人工智能认知到了一个新的高潮,我们团队本着练兵的心态也做了尝试。
谷歌收购了deepmind团队发表的论文,原来做计算机围棋的团队都纷纷采用深度学习方法来融入原有的似乎已经走进瓶颈的计算机围棋软件开发中,大家不约而同在这一年中起步。
我们内部团队有三个团队也在做,只是分在不同部门。这个部门刚好是它能够突破这个瓶颈,也动用了公司相当的大的后端的计算机资源,更大的特点是它和Alpha Go不同的是我们的决议AI的成长,全程得到了国家级围棋世界冠军从一开始的陪练,然后找出它为什么不同。我们十几位研发人员不懂围棋的,一开始连黑先下还是白先下的规则都不懂,我们从计算机原理、工程实现以及结合中国包括很多的专家来去训练。
我们觉得这算是小小的成功吧,但是也不能过于欣喜,毕竟是站在前人肩膀上,因为你没有发布这个paper,我们也不可能做出来,但是也不能说这是毫无疑义的事情。
这里面给我们最大的思考是,过去我们对AI很多是从一些规则、从简单的训练得出来的能够改善我们计算处理的这样一种能力,最终我们发现其实还有一个更恐怖、更深层的意义在于他能够在计算机的后台能够用云计算、大数据方式能够高速的自学习,能够自己跟自己对奕。
所以AlphaGo出来后,它的下一代master,经历了数十亿盘自我对弈,已经超越过去所有人类交战的盘数,然后它自己寻找规律,找到的已经远远超过人类过去在围棋领域认知的范围,是极大的扩展,这是给我们一个很大的启示。
在很多的领域——围棋以外的领域,不管是医疗(刚才讲的病理的检测),以后的金融,现实中的每个行业,如果能用计算机后台做出一个模拟器,能够让它充分尝试,就像开车一样,你可能不用教自动驾驶怎么开车,就模拟一个现实环境,给它一个规则,让它驾驶,它去撞,有各种反馈,自然会琢磨出一套理论和经验,这是给我们带来巨大思考。在很多领域如果能做出模拟器,定义出很多参数,自己学习,他能找到规律可能远超我们现在想象的。这是我们最大的启示。
吴鹰:谢谢Pony。沈向洋先生作为微软人工智能事业部的负责人,你讲讲为什么人工智能这几年能有突破性发展,能不能预测一下最可能在哪些领域具有颠覆性的应用出现?
沈向洋:谢谢吴鹰。我每次听完马云讲话以后都没有话可以讲,马云基本上把大家想讲的都已经讲完了。
我从研究生开始学习人工智能,也有20、30年时间了。现在看到人工智能如火如荼,非常激动。因为我们90年代中毕业的时候出来的时候工作都找不到,现在大家恨不得见到一个懂人工智能都投钱。
人工智能经历了多少个冬天,之所以今天有这样的发展机会,主要还是因为三个方面原因,第一件事情,是因为互联网的出现,互联网+物联网提供了更多的数据。第二件事,强大的运算能力。摩尔定律到现在,大家觉得应该会死掉,但是还没有死掉,还有更多新的计算方法。第三,过去五六年深度学习突然突破,包括腾讯研发领域充分运用到深度学习,令到大家突然看到很多不能解的问题现在可以解掉。
从人工智能基本和研究方向来讲,还是两个不同非常不一样的阶段。一个是人类感知这件事情上,我们讲人工智能,原来对人工智能的定义就是跟人类智能相比较。人类的智能体现在哪?主要是两方面,一个是感知方面、一个是认知方面。感知方面,刚才我提到这几个原因,所以在接下来5-10年进展会非常快。具体表现在计算机语音和计算机视觉发展,我觉得AI会超过人。很多人会同意我这个说法。第二方面问题大家今天还没有搞的很清楚的地方是人工智能的认知方面,包括自然语言,包括知识的获取、包括你对一般的情况下这种解决的方法这样的思考,包括情感,这些东西今天我们还都是不知道。
您刚才提到现在人工智能给大家创造了一些什么样的机会,从微软公司来讲,我们的研判觉得短期之内是有非常非常大的商机,你看到底有那些行业已经相对而言有相当大量的数据,而且同时在这个行业里面从事人员是不高兴的,那你就有商机了。
如果这样看的话,到今天来讲,几乎所有的商业应用,从市场销售到HR部门招聘,到客户支持这方面,所有的都会被颠覆掉。我是觉得客服是接下来五年最多的AI应用的商机,我这样讲并不是说自动驾车不重要、围棋下棋不应该做研究。只是具体回答吴鹰的问题,从我们来讲最大的商机在哪,就是每一个商业应用都会被颠覆掉。
吴鹰:大家注意沈博士说每一个商业应用都会被颠覆掉。这是非常震撼的一个结论。
郭为先生,你是神州数码的掌舵人,你们在智慧城市方面有很大的布局,很多人会认为你们好像跟人工智能不一定有那么大的关系。请你谈谈你对人工智能的看法。
郭为:谢谢吴鹰。刚才沈向洋讲到今天人工智能有一个比较大的突破,实际上就是三点:一个是由于互联网出现,大数据出现。第二,计算能力高速度。第三,算法。
我们做智慧城市过程中,我们为企业定位过程中也考虑到,计算能力这个事儿我们做不了。第二,算法上。昨天研讨会上,还有今天,大家认为中国目前还是落后、还是在学习阶段。作为一个传统企业转型的话,唯一能做的就是数据,就是如何能够采集到更多数据。
由于我们以前的积累,我们在很多行业有很多应用,使得我们能够接触大量的数据,这些数据如何从传统的方式上转移到用互联网方式,或者今天我们定义用深网数据挖掘,如何在三网环境下采集数据就变成我们的核心竞争力。所以做智慧城市过程中我们是不断探索这样的工作,庆幸的是由于我们跟北大合作,使得我们在深网挖掘上有很大的变化,我们发明了相关技术,使得快速生成API,为智慧城市打造了一个基于大数据操作系统,如何能够快速形成一个城市数据,然后进行分析、应用,这就是做智慧城市的实践,正是因为这样一个实践,我们花了6、7年时间,某种程度上也是碰得头破血流。
我也很同意马云的观点,我们既不能把人工智能太深化,但是也要看到他确实还是能够帮助我们做成一些事情。比如在一些特定领域里,在医疗看片子、制定医疗方案可以做的很好。比如在农业,由于土地确权,我们掌握了20亿亩土地的信息,土地上有什么数据,我们帮助进行分析,提升我们农业收入,包括进入扶贫领域。这些应用是做智慧城市过程中一个非常好的方面。
总的来讲,既要发挥神州数码在传统IT领域的应用上的特征,另外就是拥抱互联网,拥抱大数据,如何在这个领域里面有一些技术性的突破,使得我们自己的企业能够在这个领域做一些事情,这就是我们今天做智慧城市要做的工作。
吴鹰:百度在人工智能布局很早,而且深度学习上比美国很多大公司还要领先,这种评价并不过分,而且你在两年前全国政协大会上提出中国大脑这个建议。对中国也是非常重要。从百度角度你能不能谈谈关于人工智能发展你们的看法。当年你们为什么那么早做这些布局?
李彦宏:我其实也思考过这个问题。从百度的基因来说,我们从一开始成立到现在最主要是做搜索。搜索本质上是机器试图理解人想要的东西。
我们一开始用各种各样计算机方法试图理解人的意图,我在想一个问题,深度学习在图像检索里头的效果不错,是一个偶然还是它代表一种趋势。分析完之后,觉得它是代表一种趋势的,它不仅仅对于图像搜索有用,它对很多其他计算机科学要解决的问题都是非常有用的。原因就是,随着互联网这么多年发展,数据越来越多,越来越丰富,计算资源越来越便宜,越来越强大。
所以人工智能刚才说有60年历史,前50年,为什么大家不看好,为什么大家觉得人工智能没有用,我在美国读书的时候,我就很喜欢人工智能这门课,但是学完之后,教授告诉我说其实没用,人工智能没有一个真正有商业价值的应用,你将来靠这个是找不着工作的。
到现在最近几年,原来认为没用东西变成有用,是因为市场环境变了,条件变了,原来认为不可能的事情现在变成可能了。分析了环境因素之后,觉得人工智能是代表未来的。所以我们在2013年1月份对外宣布成立深度学习研究院,这个可能是全球工业界第一个用深度学习来命名的这么一个研究院。
而且这等于我自己食言了,我2013年以前不断跟外界说我们是一个商业公司,我们不应该成立研究院,不应该搞纯的研究机构,这些机构要想转化成产品,进入市场被市场所认可的话,应该跟那些产品部门、跟那些业务部门紧紧结合在一起,而不是单独成立一个研究院,但是深度学习这一波起来之后,我觉得是完全不一样的东西,他需要在理论上、在算法上,在很多方面有长远的布局和突破,所以从那个时候开始大规模投入去吸引人才,去推进算法,其实不光是算法,在刚才朱民讲的时候也讲到各种各样芯片结构层、CPU到GPU等等,都要审视算法的需求。
所以现在看起来人工智能比2013年我们决定进入的时候一个更要大的产业。前一阵我对外讲了,互联网其实现在只是一道开胃菜,真正的主菜是人工智能,所以人工智能不是互联网的一部分,不是互联网第三个阶段,它是堪比工业革命一个新的技术革命。
吴鹰:开胃菜已经更大了,互联网是人工智能的开胃菜,媒体可能会引用这个论断,但是主菜得多大的市场。我觉得你跟沈向洋说的颠覆所有的商业模式,这个影响是非常大的。沈向洋,微软人工智能事业部有多少人?
沈向洋:一共有7000多个工程师和科学家,我们还在继续招人,并且Pony和Robin经常来挖我们的人,Jack也挖。
吴鹰:沈博士就直接进入火药味比较浓的阶段的,微软如果进入中国,已经进入了,人工智能市场的话,BAT,你最想干掉马云、马化腾还是李彦宏?
沈向洋:借助刚才马云讲的,弯道超车十超九翻,要换道超车才有希望,在任何竞争的过程中总是要找到自己的出发点。
既然你给我这样一个机会的话,我就提一下,微软在中国最近这几年推出的最了不起的人工智能叫微软小冰,我不知道在座的有没有用微软小冰,可能在座的不是我们面对的用户群,我这样讲你不要生气,我们的用户群是18-24岁相对的年轻用户群,大家有时间和智能聊天机器人,这也是为什么我们选择跟Pony这边的QQ合作,也是针对这样相对年轻的用户群。
之所以我提这样的人工智能产品和一般的智能助理还不太一样。人类进化多少万年下来以后,每天讲很多的话,你可能不知道,其实男人在一天大概讲几千句话,女士一天可能讲超过一万句话。大多数的话并不是说讲一句话一定要完成一件什么工作,我老师讲大多数人一天讲的话很多都是废话,但是这个讲话很重要,讲话是人工智能里面最重要的一件事情,在很大程度上你的EQ是体现在你怎么去讲这个话。我们推小冰的过程中学到了很多东西,我们现在主推的方向,研究和产品的方向就是所谓的对话式人工智能。
吴鹰:我没用过小冰,但你好像还是没有直接回答我的问题,你最想先干掉谁?
沈向洋:你刚才问了什么问题?
吴鹰:高手。
我也想借马云刚才讲的问一个仿生问题,飞机刚出来之前,大家想的思路是看鸟在空中飞很羡慕,刚开始做飞机就想做一个像鸟一样的。
我就想问台上的四位嘉宾,不用专业知识,就是直觉,在人工智能上有突破的事,模仿人脑的,你们觉得仿人脑的方式会有所突破,还是完全不一样的想法?
郭为你就先说,说错了也不要尽管,反正你也不是人工智能专家。
郭为:是功能性的突破,还是仿生的东西,就拿AlphaGo来讲它下一盘围棋所消耗的能量,有人告诉我需要2吨煤,但是一个围棋手可能就是两碗米饭。
我们在考虑一个功能的时候,需要考虑多大的资源消耗,这对于人类进步是很重要的。你可以实现这个功能,实验室可以做得出来,但是无法实现工业化,就是要考虑成本,考虑到资源的消耗。
人工智能之所以用功能性替代就是考虑这些因素,就是完全模仿本身也非常困难。我也非常同意马云的说法,人的大脑功能,我们自己认知只有3%,最终就是用功能,而功能的替代能量消耗要比人本身,人还是太神奇了,这个我觉得很难达到人的程度。
我最近看一本书《人的宗教》,就讲人是由三个东西构成,一个是你的生命,一个是你的心智,第三个是你的心灵或精神。我们反过来讲精神的东西,我无法想象机器能够代替精神的东西,最多也就是体力上能够替代,智慧上不能,在某些方面的替代,完全替代人不可能,某些替代就是功能上的替代,所以突破就在功能上的替代,然后提高一定的效率,这是我对人工智能的看法。
所以我为什么同意马云的观点,实际上机器怎么样能够做得更好。我看远古的博物馆,人类发明一个针,这和今天人工智能的发明对人的冲击是一样的,当时人缝不了衣服,没有针怎么缝衣服,发明针是多么神奇的事,能够把衣服缝起来,今天做人工智能也和当年发明针没有根本的区别,人在进步的过程中不断发明新的工具,而新的工具最终还是为人类服务的。
吴鹰:Pony觉得是用模仿人的方式,还是全新的?
马化腾:我们当然期待有一个本质的,发现飞机的螺旋桨也好,还是流体动力学,还是鸟的翼,或者是马跑,现阶段还是通过仿生的阶段,在某一些垂直的领域,你现在要做到一个通用的AI非常难,包括围棋也是选一个非常窄的领域,然后给它学习,通过各种参数来训练。
刚才郭为提到的用AlphaGo下一盘棋要消耗多少能源。这个垂直领域训练数据是需要消耗很大的能量,但在实际用的时候其实不需要消耗太大的能量。我们绝艺训练出来的单机成本跟职业棋手差不多,但是要训练出这个模型来要很长时间,稍微改一改规则就全部要进行重复训练,改进一点之前的积累都不算,要从头积累一遍,消耗的能量很大,而且时间很长,这是很窄的一个技能模拟。
下一步到通用的,再下一步是不是有更本质性的,发现它背后的原理,智能可以超越人的碳基的智慧,是不是有其他更多的基础元素可以形成更高级的生命智慧呢?这可能是超越人类现在所发现的知识,这也是有可能的。甚至有人还突发奇想说我们现在认识的宇宙就是高智能的生命,用他的量子计算机模拟出来的环境,我们一切都是模拟出来的,也有可能。大家发挥脑洞大开的想象力吧。
吴鹰:脑洞大开,一切皆有可能,Robin怎么看?
李彦宏:其实我不太认可人工智能现在做的是仿生学,现在我们讲人工智能像是人脑神经元的工作原理,但是人脑具体怎么工作的,刚才马云讲的我们只了解3%,我们并不知道人脑是怎么工作的,你不知道它怎么工作怎么仿它?我们只知道这一点点,这一点点计算机的算法有一点类似之处。
我同意现在的人工智能,尤其是机器学习、深度学习的算法还确实处在非常初级的阶段,还有很多提升的空间,现在做得还非常不够。什么时候能够挑战真正人的认知能力,我觉得还有很长很长的时间。
我说话比较保守,我说很长是说这一天永远不可能来到。第一阶段是弱人工智能,第二阶段是强人工智能,第三阶段是超人工智能,我认为到强人工智能这个阶段就达到不了,不仅仅是你永远搞不清楚人脑是怎么工作的,你即使用电脑的方法模拟人脑,要想完全达到人脑的水平,我觉得也做不到,永远做不到这件事情。
吴鹰:我们IT领袖峰会就是观点。我也不用问沈向洋了,因为确实是人脑到底怎么工作的,不知道。但是这个答案非常简单,因为有一个上帝。所以很多科学家到最后就信上帝了,变成找到一个答案了。沈向洋,你还有补充?
沈向洋:我蛮赞成李彦宏刚才讲的,人工智能这件事情发展,今天最大问题是对人脑不了解。
脑科学今天还是非常初步的科学,你每次要讲科学的话,首先要一定要有数据,要能够做试验,而且做重复的试验,今天就没有办法真正监测到真正做试验说因为加入了这样的输入到人脑,出现什么样的输出。
接下来N年应该有更多的人投身基础科学研究脑科学这件事情。看今天计算机体系结构,冯诺伊曼结构,跟人脑结构完全是两码事。可能也像张教授说飞机的模仿并不是真正像鸟一样,我觉得肯定是这样的情况。
接下来很多方面肯定叫弱人工智能也好,这些很多的人的智能方面我们能够想象得出来,今天人能够做的事情在不远将来,绝大多数事情,人工智能都可以达到。
我举一个小的例子,比如今天大家讲你今天可以做视觉识别了,物体识别了,你今天可以做语音识别了,那今天人还有什么事情很了不起,大家觉得通过学习的方法,我们可以达到一个什么样的高度。很重要一件事情是机器阅读,阅读的能力。我要考高考、考SAT,阅读一篇文章后,你问一个问题,我可以答一个问题。
像这样的问题接下来5-10年可能是人工智能很大突破的地方,一旦有突破后,搜索也好、社交网络也好、其他商业应用也好,有很多这样的机会。
今天大家觉得激动人心的地方是因为以前是完全符号式、公式去做,今天是神经网这样一种解法。它的区别在于以前符号式做法,你觉得用符号式做法解了一个问题,是可以解释的,而今天这种神经网解法,包括Pony做的围棋机器人,他很难去解释为什么下这一步。
所以,接下来有一个需要研究的问题,从符号式到神经式怎么样回过头再到符号式,就是研究行业很热门的方向,叫做可以解释的人工智能。
吴鹰:咱们讲了这么多人工智能的话题,讲一点跟在座嘉宾更接近一点的,我本来想问李彦宏怕不怕微软,想不想把它干掉,但是没有什么意义,他们都有很智慧的回答,肯定会回避开。
但是我注意到百度你们的深度学习有一个开放平台,咱们小公司在这方面没有投入,没有技术积累,想要用也是可以用,是免费开源平台。这个是挺有意义。
你们当年决定这么做的时候,你们不觉得这样开放后会培养你的竞争对手吗?
李彦宏:我觉得人工智能是一个非常大的产业,而且是会持续很长时间。像我们现在的判断未来20-50年都会是一个快速发展的人工智能时期。
在这种时代大潮下,显然不是一个公司能够把所有的事情都做下来的。相反的,如果说我们先进入了这个领域,能够提供一些平台给一些尤其是没有这么多计算资源、没有这么多做长远研发能力的机构去做他们擅长的,他们对于很多垂直领域可能比我们的了解就会更加深刻,让他们去做的话,他会推动整个人工智能技术的发展。
所以从这个意义上讲,我们把我们的平台开放出来,对大家有益,对我们也有益,我们可以在平台上看到大家在干什么事情,哪些方向发展会更快一些,哪些领域更适用于现在已经解决的技术。我刚才讲人工智能永远不可能超过人类的能力,但是当他逐步逼近人类能力的时候,其实已经是可以一个一个行业去颠覆掉。
比如说人脸识别这种应用,我们今天如果你去机场的话,要过好几道安检,又要把身份证拿出来,比对一下,其实人脸识别这个问题解决后,将来到机场就应该大摇大摆就过去了,他那个摄像头可以识别,不需要一道一道检查的。我们在家里自己开一个Party,不可能每个人进来先把身份证看一看。但是人多了,几千人、几万人,甚至更多人的情况就要用现在比较笨的办法一个人一个人对他的身份。
现在这个问题基本上解决了。比如百度大厦,我们那个闸机就是刷脸可以进,到哪儿直接过就可以了。这还是人脸识别一个东西。语音的识别、自然语言的理解等等,都是可以。
未来人和物的交流方式,人和工具交流方式,不是人学习工具怎么使用。人和动物的区别就是人发明了工具,但是人发明了工具之后,是发明人写一个用户手册告诉你这个东西怎么用,电视怎么用、冰箱怎么用,这些东西,电脑手机怎么用,我们要学习用键盘,小时候都要学打字。
未来应该是机器、工具学习人的意图,以后人再也不需要学习工具怎么用了,我要这个工具干什么,他就能够明白,这就是我希望用人工智能方法解决理解人的自然语言,以后人和机的对话、人和物的对话就变成一种自然语言的对话,这是未来几十年可能代表人工智能发展最大的方向。
吴鹰:确实这样的话,从刚会说话的小孩儿1岁多到很老的老人都可以简单使用计算机了,这个确实没有什么太难的。像我母亲,她就是老学不会手机怎么用。我就想给她用iPad,最近要给拿弄一个。
我想问一问马化腾,微信,再加上QQ,这是世界最大的社交网络,里头有大量的数据。刚才前面发言人都重复讲了,大数据是人工智能非常重要的方面。从中国来讲,在算法上现在还落后于美国,刚才李彦宏也讲了完全超过人类是不可能的。
大数据这么重要的话,微信在很多方面已经超过社交了,现在是生活很重要的一部分,刚才说你去公园买一个2块钱小孩玩具,微信支付都可以做。
你们有没有可能把数据分享出来,让创业公司大家来用?
马化腾:这个问题在内部我们也有激烈讨论。
首先看人工智能我们关注那几块,第一个是场景。场景就是你想把这个技术应用在什么场景下,你是不是有高频的跟用户接触,这是一个落地的很重要的地方。所以我们看到很多研究院也好,包括我们内部研发团队。如果没有场景落地,没有平台支持,基本上就是空中楼阁,研究一半很难往下走。
第二个是大数据。大数据也是从平台、业务部门有大量实际运转数据才能产生出来。但是这里面很多大数据是垃圾数据,因为没有标签,每人做规划定义,用多好的算法也学不出来,学出来也是走火入魔,没有用的。数据清洗、标签化难度非常高,我们甚至要雇佣很多人用人手的办法,先用人脑清洗干净,再让AI学习。这里面是一个混合结合的过程。
第三,计算能力。也就是你有云的资源,拿几十万核的计算能力,CPU、GPU,我们还是有这个能力的。而且在云里面本身就可以很好的调用,这是我们第三个优势。
第四个,一年前我们比较缺乏的就是人才。通过一年我们也招了挺多的人,我们在微软、在西雅图还设置了一个实验室。因为很多微软的人不愿意离开西雅图,所以我们就在旁边设,没有办法,人才就是这样。几个方面结合起来才有办法真正在某一个领域看到它的成效。
我们现在观察到很多的AI所谓的大拿们,他们更关注怎么落地,能不能把毕生研究成果能够体现出来,所以在我们内部在吸引人才的时候,往往也会说你们微信、手机QQ里面的平台数据能不能给他们用。
但是事实上大家都知道,BG、部门里面的平台他们也很希望近水楼台先得月,数据就在我身边流动,我为什么不能招人先研究一把,为什么给你呢?我们现在还处在内部怎么把数据分享出来这个阶段。
当然这里面还有一个用户很关注的个人隐私:别把我的数据都卖了,到时候大家都知道。这里面还有一个很复杂的信息安全个人隐私脱敏,你是不知道无法根据数据倒推到哪一个人做了什么事情,我们要把这些处理干净才能往下一步谈。
这里面数据清理到什么标签,才能给其他部门、包括外部合作伙伴怎么用。同时有很多数据来自合作伙伴,业界其他公司,他们也遇到这样的问题那者一堆裸数据不怎么用,这样业界还要有一个标准,互惠互利交换,这是一个大方向,还有很长的路要走。
吴鹰:大数据清理之后,有针对性的,对业界别人是一个价值,别人也是一个补充。我相信人工智能是一个全社会的协调最后发展的过程。刚才朱民讲有那么多问题,所以政府也要介入来做。
其实还不光是中国,是一个世界范围内大家协同做一些事情。微软如果大家愿意跟你们合作,你们是不是感兴趣这个事情?
沈向洋:你刚才问Pony这个问题问的非常好,作为大公司来讲,特别是成功大公司来讲,我们对社会有一个责任,对行业有一个责任。当我们行业做的很成功,第一件事情就是开研究院。现在Pony也开研究院,唯一做的不对的就是开到微软门口去了。
我也想分享一下在微软的工作经验,你说叫这些公司把数据拿出来,让初创公司或者其他公司去用,我觉得不见得很现实、不见得很容易,Pony刚才解释的很好。但是我想鼓励大家,很多的数据如果我们愿意花时间、花精力做一点处理,就像Pony刚才讲的,然后让研究人员去用,完全是可以做到的。
我们微软出了两个数据集,一个是计算机视觉标准方面的集,这样可以做数据分割、物体分割。最近做了另外一个数据集是在自然语言,希望有一批新的做问题问答。这样推动研究领域,大家在标准集下,不断把标准集数据越做越多。我们做的方法是用搜索引擎数据,非常小心处理过,包括很多隐私的问题等等。拿出一些数据让大家做研究是非常实际的,完全可以做到。
吴鹰:Pony大家很支持你的观点,将来我们也期待像BAT这样的大公司,不但是说数据拿出来分享,刚才Pony还主动提到包括运算能力分享都有可能来做,这样对创业公司、中小公司,包括政府、研究机构特别是大学,非常重要。
其实利润这个事儿对企业在某些方面是制约企业发展的,他一定要完成这个利润,他是一个上市公司要做到这些。这就相对的眼光短一点。
但是你转型在智慧城市上锲而不舍做了6-7年的积累,我刚开始一直打击他,你跟政府做很多事赚不到钱,你跟政府收多收少都不合适,你们跟人工智能有关的发展上有没有一个规划,还是希望跟这些公司合作在人工智能方面的发展?
郭为:今年发生了一个比较大的并购案,就是因特尔收购了 Mobileye,Mobileye是以色列的一家公司,做汽车驾驶辅助的,Mobileye在1000万辆传统的汽车上装载了数据采集的东西,每天收集的数据量差不多相当于现在3000亿个个人生成的数据量,由于有这些数据将会支撑因特尔未来在超算上,在大数据领域的发展。
神州数码整个大的体系就是想利用我们在传统行业的优势去挖掘,刚才讲深网数据,少春是再ERP的公司,ERP的数据是不可以在互联网上直接进行传输的,它是深度应用的数据。
今天BAT很大的优势就是在互联网上已经完全垄断了数据。客观讲只要他们不犯错误的话,别人是没有机会的。当然企业犯错误是必然的,只是说在哪些方面不犯错误,对未来的看法一旦哪个地方出现空位的时候,其他新的公司就出来了,比如Mobileye十几年在数据上的积累,一下子就被大家认可了他在辅助驾驶上的能力。
我们在农业、医疗、制造业,我们给工商总局做广告登记的服务,那也就是全中国所有的商标注册登记,我们掌握了全中国所有的商标注册的公司,你的企业究竟哪个商标用得最多,哪个商标价值最大,我们完全可以通过数据分析的办法来做,这里面蕴藏了大量的商业价值。
这些东西怎么做?我觉得就是要和现在成功的,或者说在人工智能上走在前面的公司去做,发挥我们的优势深网数据挖掘,然后脱敏,打上标签,然后和别人合作把这个东西做好。这个就是我们要做的。今天我去跟BAT在互联网竞争,那我是找死,那是完全不可能的事情,那真是活腻了。
李彦宏:合作的空间是巨大的。
郭为:但是数据是可以一起合作的。
沈向洋:还是跟微软合作比较好。
吴鹰:好,有点味道了,李彦宏和Harry都在向你递橄榄枝,你要听话听音,你做苦逼活那么多年了,很多数据在后面做了很多苦活。今天在台上的嘉宾,虽然Harry一直没有回答我的问题最想干掉谁,但还是非常精彩的答案,我们开了一个非常好的头。