对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
我这里想到了三个坑: 报考专业坑:特别是一些换皮专业,以及“...
你有没有在整理衣柜时,翻出一件几年前的衣服,突然觉得:“咦,...
之前一直想做笔记软件分享,今天恰好非常有分享欲。 大学毕业...
可以参考我这篇文章 ***s://zhuanlan.zhih...
由于此次地震震中区域历史上属于少震区,且此处无明显的断裂带构...
openai的whisper模型,可以用llama.cpp作...