DeepSpeed通过系统优化加速大模型推理网站首页 学无止境

嵌入式视觉 2024-06-17 10:25:02

简介DeepSpeed通过系统优化加速大模型推理

原文地址：DeepSpeed: Accelerating large-scale model inference and training via system optimizations and compression
原文作者：DeepSpeed Team Rangan Majumder , Vice President Andrey Proskurin , Corporate Vice President of Engineering
译文出自：dl_system
本文永久链接：DeepSpeed 通过系统优化加速大模型推理
译者：harleyszhang，译者对原文有所删改和优化。

一，背景知识

1，模型训练时间过长

伴随着 Transformer 结构的提出，后续 LLM 参数开始从亿级到百亿、乃至万亿级增长，与超高速增长到模型参数量相比， GPU 显存的增长实属有限，有数据显示每 18 个月仅翻了 1.7 倍。模型参数量的增长和硬件的显存的增长之间的差距越来越大，但从目前趋势看&#

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
SpringSecurity实现前后端分离认证授权
SpringSecurity实现前后端分离认证授权