摘要

计算统一设备架构(CUDA)是通用计算领域的生力军,是世界最强计算机的引擎。但由于架构的特殊性,基于CUDA的程序必须进行专门的优化。为使编程人员了解CUDA程序的优化,从编程方法,存储器使用以及指令流优化等方面阐述CUDA程序优化措施的同时,结合一个实例进行了比较测试,测试结果显示经充分优化的程序比优化前快30倍。最后,给出了优化措施的参考排序。

全文