CUDA工具包下载|NVIDIA CUDA Toolkit 官方版v11.1.1下载

NVIDIA CUDA Toolkit是一个专业的CUDA工具包,为用户分享了专业的开发环境,创建经GPU加速的高性能应用。使用这个工具包,知识兔可以在经GPU加速的嵌入式系统、台式工作站、企业数据中心、基于云的平台和 HPC 超级计算机中开发、优化和部署应用。知识兔借助多 GPU 配置中用于分布式计算的多项内置功能,科学家和研究人员能够开发出可从单个GPU工作站扩展到配置数千个GPU的云端设施的应用。

NVIDIA CUDA Toolkit图片1

软件功能

GPU时间戳:开始时间戳

方法:GPU方法名称。这是内存副本的memcpy或GPU内核的名称。

内存副本的后缀描述了内存传输的类型,例如memcpyDToHasync表示从设备内存到主机内存的异步传输

GPU时间:这是该方法在GPU上的执行时间

CPU时间:这是启动该方法的GPU时间和CPU开销的总和。

在驱动程序生成的数据级别,CPU时间仅是启动非阻塞方法的CPU开销。

对于阻塞方法,它是GPU时间和CPU开销的总和。

默认情况下,所有内核启动都是非阻塞的。

但是,如果知识兔启用了任何探查器计数器,内核启动将被阻止。

不同流中的异步内存复制请求是非阻塞的

流ID:流的标识号

仅适用于内核方法的列

占用率:占用率是每个多处理器的活动扭曲数与最大活动扭曲数之比。

探查器计数器:请参阅探查器计数器部分以获取支持的计数器列表

网格大小:沿X,Y和Z维度的网格中的块数在单列中显示为[num_blocks_X num_blocks_Y num_blocks_Z]

块大小:沿X,Y和Z维度的块中的线程数在单列中显示为[num_threads_X num_threads_Y num_threads_Z]

dyn smem每块:每块动态共享内存大小(以字节为单位)

每块sta smem:每块的静态共享内存大小(以字节为单位)

每个线程的reg:每个线程的寄存器数

仅用于记忆复制方法的列

mem传输大小:内存传输大小(以字节为单位)

主机内存传输类型:指定内存传输是使用“可分页”还是“页面锁定”内存

更新内容

NVIDIA几年前首次推出的软件开发人员工具包经历了几次转型,其中最新的成果不到24小时就已揭晓。

在CUDA工具包,该公司决定将其命名创建,取得了功能支持和性能相当的飞跃。

从2012年4月发布的4.2版本开始,它一直跃升至5.0版。从4.0(2011年5月)到4.1(2012年1月)再到4.2的发展形成了鲜明的对比。

该软件开发工具包为C和C ++应用程序创建者分享了一些新的可能性。

首先,知识兔可以使用NVCC单独编译和链接所有设备功能。这允许创建封闭源设备功能库,甚至允许那些库启动用户定义的设备回调函数。

链接器支持在此版本中是BETA,但客户的反馈将使NVIDIA消除可能留下的任何错误。

CUDA Toolkit 5.0的第二个功能是新的命令行分析器nvproof。通过分享有关应用程序花费时间最多的位置的摘要信息,它可以使优化工作正确地集中在。

该版本的第三项资产是CUDA动态并行,它允许GPU运行的全局和设备功能使用“ <<<< >>>>>>语法启动内核,并直接调用CUDA运行时API例程。当然,此功能以前存在,但仅存在于主机功能中。

第四个也是最后一个新功能是用于Linux和Mac OS的Nsight Eclipse Edition,这是一个集成的开发环境用户界面,使程序员可以开发,调试和优化CUDA代码。

总而言之,CUDA Toolkit 5.0为新的和改进的程序打开了大门,这些程序能够利用图形处理单元的并行计算功能。

开发人员可以从下面的链接之一下载适当版本的软件。

下载仅供下载体验和测试学习,不得商用和正当使用。

下载体验

请输入密码查看下载!

如何免费获取密码?

点击下载

评论