Chuanqi's Blog

最新文章

系统性能分析方法

少于 1 分钟阅读

从 X86 到 ARM 的业务迁移,系统性能问题排查的通用方法。

2025 年度总结

少于 1 分钟阅读

2025 年的生活、工作与 AI Agent 使用感受。

build jekyll blog

少于 1 分钟阅读

从 WordPress 迁到 Jekyll + GitHub Pages 的过程记录。

NVCC 分步编译

1 分钟阅读

先上一张大图,nviDIA官方文档的编译流程图

TensorFlow 源码编译

4 分钟阅读

TensorFlow 源码编译构建 大型工程编译坑还是太多,这波先把坑给大家踩一踩。

对于异构计算的几个优化点

少于 1 分钟阅读

计算掩盖IO的延迟 例如 像 transpose 这种访存相关的操作,我们通过对一个特殊的矩阵乘,进行一次转换,达到transpose的结果,而非从片外存储中,来进行load。 矩阵分块与合并 进行与硬件的规格相匹配,例如GPU 中 w...

Tensorflow Dump HLO dot图

少于 1 分钟阅读

DUMP HLO 和 NLO的dot图,便于查看XLA PASS间是否做了对应转换

编译优化技术-PGO

少于 1 分钟阅读

PGO 是 Profile Guided Optimization 的缩写,主要是用sampling的方法,对应用程序进行剖析,得到分析的数据,然后反馈给下一次编译。

由NBA选秀引起的思考

少于 1 分钟阅读

科比逝去的阴云仍然笼罩在NBA与球迷的心间,而像鲁迅曾写到的那样”亲戚或余悲,他人亦已歌”,过不了多久就会一切如常,时间总会让一切慢慢平息。

RIP. for Kobe Bryant 8&24

少于 1 分钟阅读

今天是大年初三,新型冠状病毒肺炎疫情的隔离期间,气氛一直处于恐慌压抑的状态。

我的计算机哲学(一)

少于 1 分钟阅读

实际上这个坑留的有点大,如果从计算机理论的起源来讲的话,就是图灵机了,会讨论一些比较抽象的概念,例如可计算性和计算复杂性,当时这门课以70分结束,其实还是一知半解的;推荐一部 图灵的传记电影《The Imitation Game》,这还是一个非计算机专业的妹子推荐给我的,由卷福出演。

广告关键词

少于 1 分钟阅读

最近投入到搜索推荐相关业务加速中,记录一些常见的关键词。

2019篮球世界杯观感

少于 1 分钟阅读

今日中秋,未尽团圆之意,明月照常升起,天涯共此时。

C++ const理解

少于 1 分钟阅读

const的作用 const是C语言的一种关键字,起受保护,防止以外的变动的作用!可以修饰变量,参数,返回值,甚至函数体。const可以提高程序的健壮性,你只管用到你想用的任何地方。

TensorRT 学习

少于 1 分钟阅读

https://mp.weixin.qq.com/s/F_VvLTWfg-COZKrQAtOSwg

VOC2007数据集制作流程

4 分钟阅读

作为标准数据集,voc-2007 是衡量图像分类识别能力的基准,faster-rcnn,yolo -v1, yolo-v2都以此数据集作为演示样例。 数据集的组成架构如下:

SSD安装指南

少于 1 分钟阅读

SSD(Single Shot MultiBox Detector)算是一个比较不错的目标检测算法,主攻方向是速度,当然精度也比Yolo提高了一些,最近在ubuntu16.04下实现了代码运行,此博文主要内容来自原作者的github,加上了一些个人理解,欢迎探讨。 **PS:SSD代码和模型常常在更新,我给的链接...

NVIDIA GPU ARCH

2 分钟阅读

Compute Capability 2.x Fermi Arch