速度疑问【cpu和gpu(CUDA)的性能比较以及优化使用的探讨】
各位大侠,我的笔记本电脑显卡是独立GF8400MG,128MB的显存。我做了试验,GPU计算块中最大线程数为512,支持的最大块数为21056,我用GPU计算512*21056个数加1,得到的运行时间为0.375秒,其中包括前100个数的打印。而我用CPU for循环对512*21066个数逐个加1,得到的运行时间为0.171秒,而且我做了很多试验,GPU运行的时间都比CPU逐个计算的运行时间多出了1倍,我就纳闷了,是这个技术提倡不成功,还是其他原因,请各位大侠探讨一下。。。