对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
没去日本体验过混浴温泉,倒是在德国 FKK 浴场有过几次经历...
某天在公园健身区,看到一个五十多岁的大妈身穿紧身瑜伽裤在拉伸...
我女儿今年十一月马上就要九周岁了,不知不觉,我从她出生时的心...
(最新补充20250614) 她们只是看着胸部较平,你不会是...
我是一个女演员。 我演了一个反女拳的影音游戏,然后游戏主创...
正常人理解的软件安装: 打开***——点击下载——一键安装—...