UDN-企业互联网技术人气社区

板块导航

浏览  : 1675
回复  : 0

[资讯] GPU深度学习大爆炸

[复制链接]
胭脂粉的头像 楼主
发表于 2016-11-2 09:27:44 | 显示全部楼层 |阅读模式
  随着深度学习的兴起,支持大规模并行计算的GPU已经成为人工智能发展的重要硬件基础。作为GPU行业的领军者,NVIDIA公司最近以来一直在推动应用于机器学习的GPU技术的发展和创新。近日,NVIDIA联合创始人兼CEO黄仁勋(Jen-HsunHuang)在NVIDIA博客上发表了一篇题为TheIntelligentIndustrialRevolution(智能工业革命)的文章,解读了自己在最近的GPUTechnologyConference(GTC)会议上的所讲所学所见以及对计算发展的未来的看法。

  过去六个星期,NVIDIA搞了一个世界巡回的开发者大会。GPU技术大会(GTC)于2009年开始,旨在促进使用大规模并行处理的GPU来开发高性能计算的新方法。GTC已经成为GPU深度学习的中心——这个新的计算模型引发了现代人工智能的大爆炸。人工智能正在像野火一样蔓延。GPU深度学习开发者的数量在短短两年内就跃升了25倍。已经有大约1500个人工智能创业公司出现。这种爆炸式增长刺激了世界各地对GTC大会的需求。到目前为止,我们已经在北京、台北、阿姆斯特丹、东京、首尔和墨尔本举办过活动。华盛顿定于本周举办大会,孟买定在下个月举办。我参加了其中4场GTC大会的开幕式。人工智能是下一个计算浪潮,给一个又一个行业带来了革命,关于它,下面是我在大会上的所讲所学,以及我对不久未来看法的总结。

  
581199e7a4f00.png


  计算的新时代

  由人工智能计算机驱动的智能机器可以学习、推理和与人互动已经不再是科学幻想的场景。今天,由人工智能驱动的自动驾驶汽车可以找到路,并曲折地穿过夜间的乡村道路。人工智能机器人可以通过反复尝试来学习运动技能。这是一个不同寻常的时代。在我30年的计算机行业生涯中,没有什么比这个有更多潜力、更有趣的了。人工智能的时代已经开始。

  计算机行业推动了大规模的工业和社会变革。随着计算机行业的发展,成立了新公司,创造出新产品,我们的生活因此而改变。回顾过去几轮计算浪潮,每一个背后都有革命性的计算模型来支撑,在当时,这个计算模型架构扩展了计算能力和计算范围。

  在1995年,PC-Internet时代是由低成本微处理器(CPU),标准操作系统(Windows95)和一个新的信息门户(Yahoo!)的集成引发的。PC-Internet时代给大约十亿人带来了计算能力,实现了微软将「计算机放在每一个桌子和每个家庭」的愿景。十年后,iPhone在我们的口袋里放了一个「互联网通信」设备。加上亚马逊AWS的推出,Mobile-Cloud时代诞生了。大量应用程序走进我们的日常生活,有约30亿人因此享受移动计算提供的自由。

  今天,我们站在下一个时代的开端,人工智能计算时代,被一个新的计算模型——GPU深度学习——点燃。这种新模型——其中深层神经网络被训练以识别大数据中的模式——已被证明能「不可理解的」高效解决计算机科学中的一些最复杂的问题。在这个时代,软件可以自己编写,机器可以自己学习。不久之后,数以亿计的设备将注入智能。人工智能将彻底改变每个行业。

  GPU深度学习「大爆炸」

  为什么是现在?我在早前的博文(「AcceleratingAIwithGPUs:ANewComputingModel」)中提到,2012年将是人工智能标志性的一年。多伦多大学的AlexKrizhevsky创建了一个深度神经网络,能够从一百万个样本中自动学习识别图像。在NVIDIAGTX580GPU上仅仅用了几天的训练,「AlexNet」就赢得了那一年的ImageNet比赛,打败了所有人类专家磨炼了几十年的算法。同一年,在意识到更大的网络、更大的大脑、更多的学习之后,斯坦福大学的吴恩达和英伟达研究院(NVIDIAResearch)组队开发使用大型GPU计算系统来开发训练神经网络的方法。

  
58119a1aa6934.png


  世界开始关注到这一点了。各个地方的人工智能研究者都转向了GPU深度学习。百度、谷歌、Facebook和微软最先用它来进行模式识别。到了2015年,他们开始实现「超人类」的结果——一台计算机识别图像的能力比人类还要高。在语音识别领域,微软研究院(MicrosoftResearch)使用GPU深度学习使对话语音达到了和人类相同的水准,实现了历史性的里程碑。

  图像识别和语音识别——GPU深度学习已经为机器学习、感知、推理和解决问题提供了基础。GPU的使用从模拟人类想象引擎开始,魔术般地跳跃到视频游戏和好莱坞电影中惊人的虚拟世界里。现在,英伟达的GPU能够运行深度学习算法,模拟人类智能,作为计算机、机器人和自动驾驶汽车的大脑,感知并理解这个世界。就像人类想象和智能是连在一起的一样,计算机图形和人工智能在我们的架构中也是一同运作的。人脑有两种模式,GPU也有两种模式。这或许就解释了为什么英伟达的GPU被广泛用于深度学习,英伟达也逐渐成为大家熟知的「人工智能计算公司」。

  一种用于新计算模型的端到端平台

  作为一个新的计算模型,GPU深度学习正在改变软件的开发过程和运行方式。过去,软件工程师创造了程序并精心编码算法。现在算法能从成堆的现实世界的例子学习,软件可以自己编写出来。编程实际上是编码指令,深度学习就是创建和训练神经网络。这个网络可以被部署到数据中心,通过学习大量新数据来执行推断(infer)、预测和分类工作。网络还能被部署到如相机、汽车和机器人之类的智能设备中来理解世界。有了新的经验后,新数据会被收集来进一步训练和精炼这个网络。从数十亿的设备中学习能让网络上的设备变得更加智能。神经网络会收益于GPU处理和大型网络效应的指数增长。也就是说,它们会以一种比摩尔定律更加快的方式变得更加聪明。

  
58119a21de183.jpg


  旧有的计算模型是「指令处理」密集型的,而这种新的计算模型须要海量的「数据处理」。为了推进人工智能的全面进展,我们正在建立一个端到端的人工智能计算平台,一个能够跨越训练、接口以及数十亿设备的架构很快就会出现。

  我们从训练开始。我们的新PascalGPU,投入20亿美元,动用了数千名工程师,花了三年时间才弄好。它是第一台用于深度学习的经过优化的GPU。Pascal训练的网络比KeplerGPU(AlexKrizhevsky在这篇论文中使用的[1])训练的网络要大65倍,而且速度更快。一个单一的配备8个PascalGPU与NVLink连接的计算机,创造了有史以来吞吐量最高的互连,训练网络的速度比传统的服务器快250倍。


58119a2fa6aa7.jpg

  很快,每天数百亿个来自互联网的请求(queries)都会需要人工智能,也就意味着,每个请求将需要超过数十亿词数学运算。云服务上的总装载量需要足够大以保证实时响应。

  有了更快的数据中心推理性能,我们发布了TeslaP40andP4GPUs。P40将数据中心的推理吞吐量加速了40倍。P4仅需要50瓦的电源,设计用于加速1UOCP服务器,典型的超大规模数据中心。软件是英伟达深度学习平台中重要组成部分。在训练上,我们有CUDA和cuDNN。在推理(inference)上,我们发布了TensorRT,一个优化的推理引擎。TensorRT通过在一个层内和跨层融合操作,修剪低贡献权重,降低FP16或INT8的精确度,以及其他多个技术,在不影响精度的情况下,提升了性能。

  终有一天,数十亿个智能设备会利用深度学习来实现看似智能的任务。无人机会自动导航飞到仓库,寻找并拿到特定的物品。便携的医药器械会利用人工智能当场检测血液样本。智能相机能够学会仅在我们关心的情景中提醒我们。我们创造了高效能的人工智能超级计算机,JetsonTX1,应用到那些智能物联网设备中。只有信用卡大小的模块,JetsonTX1可以仅用10瓦的电源,达到1TeraFLOPFP16的工作性能。它和我们最强大的GPU拥有相同的构架,并且可以运行所有相同的软件。

  简单地说,我们提供了一个端到端的人工智能计算平台——从GPU到深度学习软件和算法,从训练系统到车内的人工智能计算机,从云到数据中心到PC到机器人。NVIDIA的人工智能计算平台无处不在。

  适用于所有领域的人工智能计算

  我们端到端的平台是保证每个领域都能接入人工智能的第一步。NVIDIAGPU深度学习下的全球生态系统正在快速扩张。突破性的成果引发了一场将人工智能运用到消费者网络服务的竞争——搜索、识别、推荐、翻译以及更多。云端服务供应商,从阿里巴巴、亚马逊,到IBM和微软,让大大小小的公司都用上了NVIDIAGPU深度学习平台。全球最大的企业技术公司已经在基于英伟达的GPU配置服务器。很高兴能够在我们的GTC巡回中强调我们在重要领域中的战略:

  人工智能交通:交通是一个人工智能可以改变的,价值10万亿美元的产业。无人驾驶车辆可以减少事故,提升卡车和出租车的效率,使得新的移动服务成为可能。我们宣布百度和TomTom均选择NVIDIADRIVEPX2用于无人驾驶车辆。对它们每家公司,我们都会建立一个包含高清地图,人工智能算法和人工智能超级计算机的「云端-车」的平台。

  驾驶是我们学习获得的第二天性,但我们目前还不能让计算机学会开车。无人驾驶要求每个方面都能做到人工智能——感知环境,合理地决定环境的状态,计划行动的最佳过程。同时,也持续学习以提升对于这个多样化世界的认识。大范围的无人驾驶需要一个开放的,可升级的构架——从高速路上自动巡航,到自主驾驶到目的地,到没有司机的全自动公共汽车。

  
58119a71581f7.png


  NVIDIADRIVEPX2是一个用于自动驾驶的可升级架构,包含了整个范围的人工智能技术。在GTC,我们发布了DRIVEPX2AutoCruise专为高速公路上自动驾驶设计,带有持续定位和地图。我们还发布了DriveWorksAlpha1,我们无人驾驶车上的操作系统几乎涵盖了无人驾驶的所有方面——侦查,定位,计划路线,行动。

  我们将所有的功能集中在我们的无人驾驶车NVIDIABB8上。

  NVIDIA着重在视觉处理的交叉点的创新,以及人工智能和高性能的计算——一个在智能和自主的机器核心的特殊结合。这是第一次,我们有了让无人驾驶车辆和自主机器人成为可能的人工智能算法。但它们需要一个实时的,有成本效益的计算平台。

  
58119b16713ae.jpg


  在GTC,我们介绍了Xavier。Xavier是我们有史以来做过的最有雄心的单片机,是世界第一个人工智能超级计算机芯片。Xavier有7亿个晶体管——比起最先进的服务器级别CPU更复杂。但神奇的是,Xavier和今年早些时候在CES发布的DRIVEPX2有相同的马力——每秒钟20万亿次深度学习的操作——仅用20瓦的电源。像Forbesnoted一样,我们加倍生产了带有Xavier的无人驾驶车。

  人工智能企业:IBM,一个在认知计算领域看到价值二十亿美元机会的公司,发布了新POWER8和NVIDIATeslaP100服务器,它们均是为将人工智能带入企业而设计的。在软件上,SAP声称他们已经收到了了2台第一批的NVIDIADGX-1超级计算机,并正在为190个国家的320,000个消费者建立机器学习的企业解决方法。

  人工智能城市:到了2020年,世界上将会有10亿台相机。Hikvision是全世界检测系统的领导者,它正在运用人工智能让我们的城市更加安全。它用DGX-1进行网络训练,现已在16JetsonTX1中央处理器上建立了一个突破性的服务器,叫做「Blade」。Blade只需要基于21个CPU的服务器的1/20的空间和1/10的能量就可以达到相同的性能。

  人工智能工厂:在全球范围内已有20亿左右的工业机器人。日本是机器人创新的中心。在GTC,我们宣布FANUC,一个日本的工业机器人巨头,将会在NVIDIA人工智能平台上建造一个端到端的未来工厂。它的深度神经网络将由NVIDIAGPU来训练,GPU驱动下的FANUCFog单元将控制一群机器人,让他们能够共同学习。每个机器人都会植入GPU,使之成为实时人工智能。麻省理工技术评论对他的故事这么写到:「日本的机器人巨头为它的武器加上了大脑」。

  创业公司的爆发是人工智能横扫各个产业的又一指示。Fortune最近写到,深度学习会「改变美国的大公司」。

  
58119af817fa6.png


  人工智能可以提前解决我们能力范围外的问题。从现实生活中的数据,计算机可以学会认识那些对于人工编写的软件甚至是人来说太复杂、太巨大或太微小的图案。通过GPU深度学习,这个计算机模型现在已经被熟练应用在解决世界上最大的产业的问题上。无人驾驶汽车将会改变10万亿美元的交通运输业。在医疗保健上,医生可以使用人工智能帮助你更早发现疾病、或是了解人类基因组的奥秘去治疗癌症、又或是从大量的药物数据和研究中学习,向你建议最好的治疗方法。人工智能会开创第四次工业革命——继蒸汽机、大规模制造和自动化之后——智能机器人会引领巨大的生产力提高的新浪潮,为大规模客户定制化提供了可能。人工智能将会触及每一个人。人工智能的时代已经到来。

文章来源:机器之心
文章作者:黄仁勋

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部