英伟达Faster Transformer:作者带你揭秘BERT优化

创业故事 阅读(1346)

原始标题:NVIDIA Faster Transformer:作者带您揭示BERT优化

2017年12月,Google在论文《注意就是你所需要的》中首次提出了Transformer,它是一种通用且高效的特征提取器。迄今为止,Transformer已被各种NLP模型所采用,例如BERT和XLNet,它们在多个NLP任务中均具有出色的性能。

除了NLP之外,TTS和ASR等领域也逐渐采用了变压器。可以预见,像CNN和RNN这样的简单有效的网络结构Transformer将被广泛采用。尽管Transformer在各种情况下均具有出色的性能,但其计算性能在推理部署阶段受到了极大的挑战:基于BERT的多层Transformer模型通常很难满足低延迟的在线业务(服务质量保证)和高吞吐量(考虑成本)要求。因此,高效的Transformer前向计算解决方案不仅可以为在线业务带来成本降低和效率提高,而且可以在更实际的工业场景中以Transformer结构为核心,促进各种网络的登陆。

NVIDIA GPU计算专家团队为Transformer推理提出了一种性能优化解决方案:Faster Transformer。

因此,更快的变压器是BERT变压器单层正向计算的有效实现。代码简洁明了,稍后可以通过简单修改来支持多个Transformer结构。当前,Faster Transformer的优化集中在编码器的正向计算上(在后续的功能规划中开发了解码器)。基础层由CUDA和cuBLAS实现,并支持FP16和FP32计算模式。 FP16可以利用Volta和Turing架构GPU上的Tensor Core计算单元。

不久前,机器的心脏向NVIDIA的开源Faster Transformer进行了简短介绍。为了向读者解释Faster Transformer的优化原理和细节,9月26日,NVIDIA中国GPU计算专家团队的高级工程师将带来在线分享,以解释Faster Transformer。

快速变压器概述

直播时间:2019年9月26日20:00-21:30

分享主题:更快的变压器概述

分享:NVIDIA中国GPU计算专家团队高级工程师贾晓颖

Jia Xiaoying博士于2017年毕业于香港科技大学,然后加入NVIDIA GPU计算专家团队,在GPU上执行NLP,CTR和ASR模型的高效推理实现和优化。

在此直播中,您将学到以下内容:

Faster Transformer的优化原理和细节;

如何通过CUDA和cuBLAS在最新的架构GPU上实现高性能的Transformer Encoder。

单击以阅读原文,您可以在注册后保留直播。

NVIDIA GPU计算专家团队致力于通过代码优化和模型为中国客户提供基于GPU的最快解决方案,用于视频图像处理,语音识别和合成,自然语言处理,推荐系统等。优化和管道优化可提供端到端解决方案。该团队已开源了几个原型项目,以帮助用户评估GPU可以带来的业务收益,并进一步开发集成以利用GPU来降低成本并提高用户效率。回到搜狐,看看更多

负责编辑:

2019-09-18 11:05

Source : Machine Heart Pro

原始标题:NVIDIA Faster Transformer:作者带您揭示BERT优化

2017年12月,Google在论文《注意就是你所需要的》中首次提出了Transformer,它是一种通用且高效的特征提取器。迄今为止,Transformer已被各种NLP模型所采用,例如BERT和XLNet,它们在多个NLP任务中均具有出色的性能。

除了NLP之外,TTS和ASR等领域也逐渐采用了变压器。可以预见,像CNN和RNN这样的简单有效的网络结构Transformer将被广泛采用。尽管Transformer在各种情况下均具有出色的性能,但其计算性能在推理部署阶段受到了极大的挑战:基于BERT的多层Transformer模型通常很难满足低延迟的在线业务(服务质量保证)和高吞吐量(考虑成本)要求。因此,高效的Transformer前向计算解决方案不仅可以为在线业务带来成本降低和效率提高,而且可以在更实际的工业场景中以Transformer结构为核心,促进各种网络的登陆。

NVIDIA GPU计算专家团队为Transformer推理提出了一种性能优化解决方案:Faster Transformer。

因此,更快的变压器是BERT变压器单层正向计算的有效实现。代码简洁明了,稍后可以通过简单修改来支持多个Transformer结构。当前,Faster Transformer的优化集中在编码器的正向计算上(在后续的功能规划中开发了解码器)。基础层由CUDA和cuBLAS实现,并支持FP16和FP32计算模式。 FP16可以利用Volta和Turing架构GPU上的Tensor Core计算单元。

不久前,机器的心脏向NVIDIA的开源Faster Transformer进行了简短介绍。为了向读者解释Faster Transformer的优化原理和细节,9月26日,NVIDIA中国GPU计算专家团队的高级工程师将带来在线分享,以解释Faster Transformer。

快速变压器概述

直播时间:2019年9月26日20:00-21:30

分享主题:更快的变压器概述

分享:NVIDIA中国GPU计算专家团队高级工程师贾晓颖

Jia Xiaoying博士于2017年毕业于香港科技大学,然后加入NVIDIA GPU计算专家团队,在GPU上执行NLP,CTR和ASR模型的高效推理实现和优化。

在此直播中,您将学到以下内容:

Faster Transformer的优化原理和细节;

如何通过CUDA和cuBLAS在最新的架构GPU上实现高性能的Transformer Encoder。

单击以阅读原文,您可以在注册后保留直播。

NVIDIA GPU计算专家团队致力于通过代码优化和模型为中国客户提供基于GPU的最快解决方案,用于视频图像处理,语音识别和合成,自然语言处理,推荐系统等。优化和管道优化可提供端到端解决方案。该团队已开源了几个原型项目,以帮助用户评估GPU可以带来的业务收益,并进一步开发集成以利用GPU来降低成本并提高用户效率。回到搜狐,看看更多

负责编辑:

声明:本文仅代表作者本人,搜狐是信息发布平台,搜狐仅提供信息存储空间服务。

更快

贾小英

中国地区

模型

香港科技大学

阅读()