archlinux卸载nvidia

1、进入recovery模式由于无法进入图形界面,需要在开机时进入恢复模式。机器上时在开机时通过选项中的recoverymode选项进入。

linux查看cuda版本 linux查看conda版本linux查看cuda版本 linux查看conda版本


linux查看cuda版本 linux查看conda版本


2、查看所有NVIDIA驱动通过以下命令查看:如果列出来的驱动中,有名称为nvidia-common之外的驱动,则需要卸载其他驱动。

3、卸载多余驱动重新安装NVIDIA显卡驱动osc_tn1q1y1r卸载旧的显卡驱动查看linux系统中的CUDA版本即可。

linux中哪些工具可以测试cuda程序,gpu内存性能

nvcc 编译代码

nvcc -o squareSum squareSum.cu运行结果:

CUDA initialized.

(GPU) sum:29909398 time:787124792

(CPU) sum:29909398 time:10000

从执行的结果可以看出, GPU 中运行的程序居然要比 CPU 中的消耗的时钟周期还要多得多。这是有原因的。

因为程序之中并没有使用 CUDA 并行执行的优势。

这里分析一下 GPU 运行的性能。

此 GPU 消耗的时钟周期: 787124792 cycles

GeForce G 103M 的 clockRate: 1.6 GHz

所以可以计算出 GPU 上运行时间是: 时钟周期 / clockRate = 0.495 s

1 M 个 int 型数据有 4M Byte 的数据量,实际使用的 GPU 内存带宽是:数据量 / 运行时间 = 8.13 MB/s

可见这个程序没有很好的发挥 GPU 的性能,使用的内存带宽很小。

没有有效利用 GPU 性能的原因???

在 CUDA 中,一般的数据到的显卡内存的部份,称为 global memory。这些内存是没有 cache 的,而且,存取 global memory 所需要的时间(即 latency)是非常长的,通常是数百个 cycles。

由于我们的程序只有一个 thread,所以每次它读取 global memory 的内容,就要等到实际读取到数据、累加到 sum 之后,才能进行下一步。这就是为什么它的表现会这么的。实际上 GPU 一直在等待上一个数据运行的结束,然后再拷贝一个内存数据,所以使用的时钟周期自然就长了。

由于 global memory 没有 cache,所以要避开巨大的 latency 的方法,就是要利用大量的 threads。设现在有大量的 threads 在同时执行,那么当一个 thread 读取内存,开始等待结果的时候,GPU 就可以立刻切换到下一个 thread,并读取下一个内存位置。因此,理想上当 thread 的数目够多的时候,就可以完全把 global memory 的巨大 latency 隐藏起来了。

ubuntu系统下nvcc -V 和nvidai-i 显示的cuda版本不一致

cuda 版本

cat /usr/local/cuda/version.txt

cudnn 版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

另外建议看看《Linux就该这么学》这本书熟悉下命令