UDN-企业互联网技术人气社区

板块导航

浏览  : 363
回复  : 1

[其它] SyntaxNet 开源:Google 欲成为语句分析技术的助推器

[复制链接]
山外青山的头像 楼主
发表于 2016-5-17 13:24:43 | 显示全部楼层 |阅读模式

FvjcWtkPCuVyCrRTQte4UNrQcxKh.jpg


       Google 公司将其自然语言理解方面的软件 SyntaxNet 进行开源,使得研究人员可以不用担心语句分析的问题,从而可以进行该领域更深层次的探索。
  
  如果你告诉 Siri 设置早上 5 点的闹钟,那么 Siri 可以顺利帮你完成这个任务;但如果你问 Siri 哪一种止疼药可能会对你的胃产生影响,那么她就会有些惊慌失措,不知如何处理了,这是因为这个句子本身比较复杂。Siri 与计算机科学家所说的「自然语言理解」还有很大的差距,虽然 Apple 在其广告中大肆渲染,但事实上她并不能真正理解人类谈话的方式。严格来说,我们并不能将 Siri 称为「她」,因为 Siri 的人格魅力是由苹果公司一手包装出来的,而这其实并没有很强的说服力。
  
  当然,这并不是说数字助理永远都无法如我们所期望的那样理解人类。因此,各大科技公司巨头、初创公司和大学里的众多研究人员都在努力让电脑真正实现自然语言理解。在深层神经网络(模拟人类大脑中的神经网络建立的硬件和软件网络)的帮助下,目前该领域的研究也在稳步发展。Google、Facebook 和 Microsoft 已经开始使用深度神经网络来辨认照片中的物体以及识别我们输入数字助理(如 Siri)的单词。随着科技进一步的发展,我们希望人工智能能够帮助设备迅速抓住输入单词的核心意思,并且理解这些单词如何组成有意义的句子。
  
  关于这方面的研究(例如搜索引擎和数字助理)Google 公司目前正走在前列,而且该公司也暗示这项技术将会在未来的生活中扮演非常重要的角色。Google 公司也将其自然语言工作方面的软件进行了开源,从而使得其可以在世界上免费分享。当然,这也是当前科技领域的通用做法——一些公司会将一些很重要的事物公开,从而推动整个市场的发展。
  
  这种新型开源软件叫做 SyntaxNet,而在自然语言研究人员看来,这是一种句法分析软件。通过深度神经网络,SyntaxNet 可以分析句子中每个单词所扮演的角色、以及这些单词如何组合在一起之后产生了真正的含义。该系统想要识别这种潜在的逻辑(什么是名词、什么是动词等),然后通过这些信息来识别句子的含义(即句子的主旨,并且是机器能读取的形式)。
  
  「在深度学习的帮助下,我们能够获得更高的精确度。」Google 自然语言理解方面负责人 Fernando Pereira 说。据他估计,和以前的方法相比,该工具可以帮助该公司将错误率降低 20% 到 40%。目前这种方法已经应用到 Google 众多的服务中,例如搜索引擎方面。
  
  相互分享
  
Fp6PJig4L3AByIVt9VZxwrhJ37h0.png


  在一些 Google 公司之外的研究人员眼中,SyntaxNet 是同类系统中最先进的。之前 Google 公司发表了一篇研究论文,该论文对这一部分工作有非常详细的描述。「这篇论文的结果非常好,使得我们的工作又往前前进了一步。幸运的是目前仍然有很多人都在继续努力研究这一问题。」Noah Smith 说。Noah Smith 是华盛顿大学计算机科学专业的一名教授,其专业方向为自然语言理解。而该项目最让人振奋的一点是 Google 仍然会继续将 SyntaxNet 进行开源分享。

FpGdBdw7sKlWZz4_wbzVo3Rz57Tf.jpg

  
  通过将 SyntaxNet 进行开源分享,Google 公司旨在促进自然语言研究的进一步发展,就像当年将促进人工智能研究向前发展的软件引擎 TensorFlow 进行开源一样。通过允许更多的人来使用和修改 SyntaxNet,Google 可以集中更多人的智慧来解决自然语言理解方面的问题。最后,这也可能会为 Google 带来很好的收益。其实这种开源方式也是公司宣传这项工作的一种方式,而这也会让 Google 受益。毫无疑问,通过使用诸如 SyntaxNet 这样的技术,Google 希望能够让电脑在理解真实对话方面具有越来越重要的作用。并且在和其他的数字助理竞争的过程中,Google 公司也希望让全世界都看到其在该领域的领先地位。
  
  数字助理无处不在
  
FnCYg_zlQcIuFkfqkABPmxViyRpM.png


  在个人数字助理领域,Google 绝不是唯一具有产品的公司。Microsoft 推出了数字助理 Cortana;亚马逊(Amazon)也具有自己的数字助理 Echo。不仅如此,很多初创公司也加入到了这一竞赛当中,例如 Viv(由 Siri 初始团队的两名设计人员创立的公司)。Facebook 也推出了野心勃勃的 Facebook M 项目,该工具可以通过文字和用户对话,其目标是全方位协助用户处理日常生活中的各种事物。
  
  尽管目前有众多的公司都在努力解决这个问题,但是数字助理和聊天机器人目前还只能说是步履蹒跚,离完美还有很长的路要走,而这些都是由其背后的技术所决定的。Facebook M 依赖于人工智能的发展,但目前更多的是依靠背后的工程师来解决一些复杂的任务。「我们离心中的圣地还非常遥远。」Pereira 说。
  
  事实上,Pereira 将 SyntaxNet 视为一些更重要的进步的基石。句法分析仅仅提供最基础的服务,其他的技术可以通过 SyntaxNet 来获得语句的真正含义。Google 将 SyntaxNet 开源,部分原因也是希望借此来鼓励研究人员能够看到比句法分析更广阔更深层的东西。「我们想要鼓励自然语言理解领域的研究人员跳出句法分析的范围,而能够研究更深层次的语义推理。我们其实是想告诉人们并不需要担心语句分析,我们已经将这一部分做好了,你们可以无偿使用,你们要做的就是进行更深层次的探索。」Pereira 说。
  
  进入深层神经网络

Fvch5TebjLiVSbC4fbdi3YPLaxJS.jpg

  
  通过使用深层神经网络,SyntaxNet 和类似的系统都将句法分析带到了一个新的层次。神经网络可以通过分析大量的数据来进行学习。例如通过分析数百万张汽车照片,神经网络可以学会如何识别照片中的汽车。就 SyntaxNet 而言,它可以通过分析数百万个句子来试着理解句子的含义,但是这里所分析的数百万个句子并不是随随便便的句子。人们已经对这些句子进行了分类,并且对于句子中的每一个单词的角色都进行了分析。通过分析这些已经标记的句子,该系统可以学习如何在其他句子中来辨认这些类似的特征。
  
  虽然 SyntaxNet 是一个供工程师和人工智能研究人员使用的工具,但是 Google 也推出了相应的自然语言处理服务,该服务已经通过该系统进行了很好的训练。该服务被称为 Parsey McParseface,其训练语言为英语,训练素材来自新闻报道。据 Google 介绍,Parsey McParseface 在识别单词与句中其他部分的关系方面的准确率达到了 94%,这已经与人类非常接近(人类的准确率在 96% 到 97%)。
  
  Smith 也指出,训练 Parsey McParseface 的数据库并不完善,因为其训练素材仅限于新闻报道,例如华尔街日报等。「新闻报道所使用的语言非常特殊,它和我们平时交流的语言风格有很大的不同。」人们希望这些训练素材的来源能够更广泛,更加贴近生活,例如直接来源于网络。但是这也使得训练更加困难,因为网络语言千差万别。当 Google 用这种数据库来训练神经网络的时候,其识别准确率就降到了 90% 左右。关于这方面的研究还远不尽如人意,其训练的数据库也并不完善,而这也是一个更大的问题。不仅如此,目前的语言只涉及到了英语,而对于其他的语言来说,一切都还是未知。
  
  换句话说,想要让数字助理像一个真正的人类助理那样并不现实,但是我们可以一步步朝着这个目标迈进。「想要让数字助理获得和人类一样的能力还任重而道远,但幸运的是我们正在努力建造精确程度远超以往的技术。」Pereira 说。
  
  文章来源:Wired.
作者: 林云箫

发表于 2016-5-17 14:01:50 | 显示全部楼层
赞一个
使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部