网站地图官方微信:
网站首页 温仁镇 孙祖镇 确山县 双洛乡 团坝镇 城镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 中国大陆地区献血率为何如此低下? |

    如果一开始不宣传献血优先用血,免费用血,直系亲属优先用血,不...

    查看详情>>
  • | 现实中的父女关系是怎样的? |

  • | 如何评价电视剧《欢愉的艺术》? |

  • | 写业务的话,go是不是垃圾? |

  • | 如何看待多地开展查摆年轻干部玩心重、贪图享乐、说话随意、社会交往复杂、生活不检点等问题的行动? |

  • | 室友因为身体原因要用冰箱,但是电费却由我们平摊,合理嘛? |

  • | 有什么工具可以批量更改文件名? |

  • | 如何评价杨立昆认为大模型只是对海量文本的模式进行复杂拟合,根本不懂意义? |

  • | 怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令? |

  • | 很好奇,组NAS的玩家是如何解决上传速率的问题? |

  • | 为什么都认为无GC语言一定会比有GC语言要快? |

  • 因为我们期待一场胜利太久了。 看看印巴冲突,我们为J10干掉...

    2025-06-26
  • 有些时候,安慰一个人最好的办法,是告诉他:其实我比你还惨。 ...

    2025-06-26
  • 前几年不知道为什么互联网大厂抽什么风,考虑用GO来代替部分任...

    2025-06-26
  • 单位招了个 37 岁程序员,工资 16000,比小年轻还少。...

    2025-06-26

关注我们

添加微信好友,关注最新动态