Chuanqi Zang

System Software Engineer · OpenJDK / Performance

对于异构计算的几个优化点

June 15, 2020 少于 1 分钟阅读

计算掩盖IO的延迟
- 例如像 transpose 这种访存相关的操作，我们通过对一个特殊的矩阵乘，进行一次转换，达到transpose的结果，而非从片外存储中，来进行load。
- 矩阵分块与合并
  - 进行与硬件的规格相匹配，例如GPU 中 warp的概念（32 thread 同步执行），shared memory 这种可编程的存储。
- 计算与load/store流水起来，减少气泡的等待
- 充分利用dsp资源，如果有效利用率达到80%以上，那么就已经很成功了。

分享

X Facebook LinkedIn Bluesky

猜您还喜欢

系统性能分析方法

February 14, 2026 少于 1 分钟阅读

从 X86 到 ARM 的业务迁移，系统性能问题排查的通用方法。

2025 年度总结

December 31, 2025 少于 1 分钟阅读

2025 年的生活、工作与 AI Agent 使用感受。

build jekyll blog

April 3, 2025 少于 1 分钟阅读

从 WordPress 迁到 Jekyll + GitHub Pages 的过程记录。

NVCC 分步编译

August 13, 2020 1 分钟阅读

先上一张大图，nviDIA官方文档的编译流程图