12月18日,在今日gtc china 2019现场,英伟达发布了一款突破性的推理软件,借助于这款软件,全球各地的开发者都可以实现会话式ai应用,大幅减少推理延迟。而此前,巨大的推理延迟一直都是实现真正交互式互动的一大阻碍。
nvidia tensorrt 7作为nvidia第七代推理软件开发套件,为实现更加智能的ai人机交互打开了新大门,从而能够实现与语音代理、聊天机器人和推荐引擎等应用进行实时互动。
据juniper research估计,全世界有32.5亿个数字语音助理被应用于设备中。到2023年,该数字预计将达到80亿,比当今全球人口总和还要多。
tensorrt 7内置新型深度学习编译器。该编译器能够自动优化和加速递归神经网络与基于转换器的神经网络。这些日益复杂的神经网络是ai语音应用所必需的。
与在cpu上运行时相比,会话式ai组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下。
nvidia创始人兼首席执行官黄仁勋在gtc china主题演讲中表示:“我们已进入了一个机器可以实时理解人类语言的ai新时代。tensorrt 7使这成为可能,为世界各地的开发者提供工具,使他们能够构建和部署更快、更智能的会话式ai服务,从而实现更自然的ai人机交互。”
全球一些最大、最具创新性的公司已在使用nvidia的会话式ai加速功能。
在首批使用nvidia会话式ai加速能力的企业中,包括了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等一些中国最具创新力的领先企业。
搜狗公司为全球使用频率最高的手机应用程序——微信,提供搜索服务。
递归神经网络变得日益重要
tensorrt 7加快了ai模型的领域扩展。这些模型被用于预测使用递归循环结构(rnn)的时间序列、数据情景。除了用于会话式 ai语音网络之外,rnn还可以帮助规划汽车或卫星到达时间、预测电子病历中的异常情况预测金融资产和识别欺诈。
rnn配置和功能组合的爆炸式增长为快速部署可以满足实时性能标准的生产代码带来了挑战,使得开发者需要花费长达数月的时间创建手写代码优化,从而使得会话式ai仅局限于拥有必要专业人才的少数公司。
通过tensorrt的新型深度学习编译器,全球各地的开发者能够将这些网络(例如定制的自动语音识别网络以及用于文本-语音转换的wavernn和tacotron 2)实现自动化,并实现最佳的性能和最低的延迟。
新的编译器还能优化基于transformer的模型,例如用于自然语言处理的bert等。
从边缘到云,为推理提供加速
tensorrt 7可以快速优化、验证并部署经过训练的神经网络,为超大型数据中心、嵌入式或汽车gpu平台提供推理能力。
nvidia的推理平台,包括tensorrt以及多个nvidia cuda-x ai 库和nvidia gpu,不只能为会话式ai提供低延迟、高吞吐量的推理能力,也同样能为包括图像分类、欺诈识别、分割、目标检测和推荐引擎在内的其它应用提供低延迟、高吞吐量的推理能力。
该平台的各项能力已被一些世界领先的企业和消费技术公司广泛使用,其中包括阿里巴巴、美国运通(american express)、百度、paypal、pinterest、snap、腾讯和twitter。
tensorrt 7 将在未来几天内开放访问,以用于开发和部署。nvidia开发者计划成员可通过 tensorrt 网页免费获得tensorrt 7。此外,新版本插件、语法分析器和样本也将作为开放资源,通过tensorrt github 库提供。