门户网站的好处店铺头像logo设计
2026/5/20 17:06:25 网站建设 项目流程
门户网站的好处,店铺头像logo设计,山西建筑工程集团有限公司,网页维护包括哪些1.cpu的运算对于cpu的运算#xff0c;我们需要遍历3次#xff0c;如果A*BC,A为M*K维#xff0c;B维K*N维#xff0c;C为M*N为#xff0c;则我们首先要遍历P的M维和N维#xff0c;在遍历K维进行计算#xff1a;2.gpu运算对gpu运算#xff0c;由于是并行运算#xff0c;…1.cpu的运算对于cpu的运算我们需要遍历3次如果A*BC,A为M*K维B维K*N维C为M*N为则我们首先要遍历P的M维和N维在遍历K维进行计算2.gpu运算对gpu运算由于是并行运算C矩阵的每个数值同时计算我们的思路是每个线程thread处理一个矩阵上的数值所以线程的坐标可以代表矩阵C的坐标例如对于矩阵C8*8的矩阵我们可以让blockdim为4*4也就是一个block中有16个线程则2*2的grid就能算完所有C矩阵上的值具体我们的核函数如下下面我们把cpu的数据传入gpu中进行并行运算进行试验实验参数实验我们进行了5组有cpugpu预热blocksize16blocksize1blocksize32。实验结果显然即便是预热的gpu运算也比cpu快后面几组可以说明一些问题gpu_blocksize1运算的速度最慢因为同一个block线程块中的所有thread线程共享一块该block专属的 shared memory而同一个grid线程格中的不同block之间各自的 shared memory 是相互独立、完全隔离的所以blocksize1代表着每个线程都不是共享的算法只能依赖全局内存访问速度很慢而为什么blocksize32变得就很快了呢且硬件调度无冗余GPU 以 32 个线程为 1 个 warp 调度q所以blocksize32最快。优化数据其实一直都是在gobalmemory中取其实很慢我们可以创建sharememory来加快速度。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询