原始标题:NVIDIA Faster Transformer:作者带您揭示BERT优化
2017年12月,Google在论文《注意就是你所需要的》中首次提出了Transformer,它是一种通用且高效的特征提取器。迄今为止,Transformer已被各种NLP模型所采用,例如BERT和XLNet,它们在多个NLP任务中均具有出色的性能。
除了NLP之外,TTS和ASR等领域也逐渐采用了变压器。可以预见,像CNN和RNN这样的简单有效的网络结构Transformer将被广泛采用。尽管Transformer在各种情况下均具有出色的性能,但其计算性能在推理部署阶段受到了极大的挑战:基于BERT的多层Transformer模型通常很难满足低延迟的在线业务(服务质量保证)和高吞吐量(考虑成本)要求。因此,高效的Transformer前向计算解决方案不仅可以为在线业务带来成本降低和效率提高,而且可以在更实际的工业场景中以Transformer结构为核心,促进各种网络的登陆。
NVIDIA GPU计算专家团队为Transformer推理提出了一种性能优化解决方案:Faster Transformer。
因此,更快的变压器是BERT变压器单层正向计算的有效实现。代码简洁明了,稍后可以通过简单修改来支持多个Transformer结构。当前,Faster Transformer的优化集中在编码器的正向计算上(在后续的功能规划中开发了解码器)。基础层由CUDA和cuBLAS实现,并支持FP16和FP32计算模式。 FP16可以利用Volta和Turing架构GPU上的Tensor Core计算单元。
不久前,机器的心脏向NVIDIA的开源Faster Transformer进行了简短介绍。为了向读者解释Faster Transformer的优化原理和细节,9月26日,NVIDIA中国GPU计算专家团队的高级工程师将带来在线分享,以解释Faster Transformer。
快速变压器概述
直播时间:2019年9月26日20:00-21:30
分享主题:更快的变压器概述
分享:NVIDIA中国GPU计算专家团队高级工程师贾晓颖
Jia Xiaoying博士于2017年毕业于香港科技大学,然后加入NVIDIA GPU计算专家团队,在GPU上执行NLP,CTR和ASR模型的高效推理实现和优化。
在此直播中,您将学到以下内容:
Faster Transformer的优化原理和细节;
如何通过CUDA和cuBLAS在最新的架构GPU上实现高性能的Transformer Encoder。
单击以阅读原文,您可以在注册后保留直播。
NVIDIA GPU计算专家团队致力于通过代码优化和模型为中国客户提供基于GPU的最快解决方案,用于视频图像处理,语音识别和合成,自然语言处理,推荐系统等。优化和管道优化可提供端到端解决方案。该团队已开源了几个原型项目,以帮助用户评估GPU可以带来的业务收益,并进一步开发集成以利用GPU来降低成本并提高用户效率。回到搜狐,看看更多
负责编辑:
2019-09-18 11:05
Source : Machine Heart Pro
原始标题:NVIDIA Faster Transformer:作者带您揭示BERT优化
2017年12月,Google在论文《注意就是你所需要的》中首次提出了Transformer,它是一种通用且高效的特征提取器。迄今为止,Transformer已被各种NLP模型所采用,例如BERT和XLNet,它们在多个NLP任务中均具有出色的性能。
除了NLP之外,TTS和ASR等领域也逐渐采用了变压器。可以预见,像CNN和RNN这样的简单有效的网络结构Transformer将被广泛采用。尽管Transformer在各种情况下均具有出色的性能,但其计算性能在推理部署阶段受到了极大的挑战:基于BERT的多层Transformer模型通常很难满足低延迟的在线业务(服务质量保证)和高吞吐量(考虑成本)要求。因此,高效的Transformer前向计算解决方案不仅可以为在线业务带来成本降低和效率提高,而且可以在更实际的工业场景中以Transformer结构为核心,促进各种网络的登陆。
NVIDIA GPU计算专家团队为Transformer推理提出了一种性能优化解决方案:Faster Transformer。
因此,更快的变压器是BERT变压器单层正向计算的有效实现。代码简洁明了,稍后可以通过简单修改来支持多个Transformer结构。当前,Faster Transformer的优化集中在编码器的正向计算上(在后续的功能规划中开发了解码器)。基础层由CUDA和cuBLAS实现,并支持FP16和FP32计算模式。 FP16可以利用Volta和Turing架构GPU上的Tensor Core计算单元。
不久前,机器的心脏向NVIDIA的开源Faster Transformer进行了简短介绍。为了向读者解释Faster Transformer的优化原理和细节,9月26日,NVIDIA中国GPU计算专家团队的高级工程师将带来在线分享,以解释Faster Transformer。
快速变压器概述
直播时间:2019年9月26日20:00-21:30
分享主题:更快的变压器概述
分享:NVIDIA中国GPU计算专家团队高级工程师贾晓颖
Jia Xiaoying博士于2017年毕业于香港科技大学,然后加入NVIDIA GPU计算专家团队,在GPU上执行NLP,CTR和ASR模型的高效推理实现和优化。
在此直播中,您将学到以下内容:
Faster Transformer的优化原理和细节;
如何通过CUDA和cuBLAS在最新的架构GPU上实现高性能的Transformer Encoder。
单击以阅读原文,您可以在注册后保留直播。
NVIDIA GPU计算专家团队致力于通过代码优化和模型为中国客户提供基于GPU的最快解决方案,用于视频图像处理,语音识别和合成,自然语言处理,推荐系统等。优化和管道优化可提供端到端解决方案。该团队已开源了几个原型项目,以帮助用户评估GPU可以带来的业务收益,并进一步开发集成以利用GPU来降低成本并提高用户效率。回到搜狐,看看更多
负责编辑:
声明:本文仅代表作者本人,搜狐是信息发布平台,搜狐仅提供信息存储空间服务。
更快
贾小英
中国地区
模型
香港科技大学
阅读()