<div dir="ltr">I am MPI serial LU solving a smallish matrix (2D, Q3, 8K equations) on a Summit node (42 P9 cores, 6 V100 GPUs) using cuSparse and Kokkos kernels. The cuSparse performance is terrible. <div><br></div><div>I solve the same TS problem in MPI serial on each global process. I run with NP=1 or (all) 7 cores/MPI per GPU:<div><font face="monospace">MatLUFactorNum time, using all 6 GPUs:<br></font></div><div><font face="monospace">NP/GPU cuSparse Kokkos kernels <br></font></div><div><font face="monospace">1      0.12     0.075</font></div><div><font face="monospace">7      0.55     0.072 // some noise here</font></div><div><div><div>So cuSparse is about 2x slower on one process and 8x slower when using all the cores, from memory contention I assume.</div><div><br></div><div>I found that the problem is in MatSeqAIJCUSPARSEBuildILULower[Upper]TriMatrix. Most of this excess time is in:</div><div><br></div><div><font face="monospace">      cerr = cudaMallocHost((void**) &AALo, nzLower*sizeof(PetscScalar));CHKERRCUDA(cerr);</font></div></div></div><div><br></div><div>and</div><div><br></div><div><font face="monospace">      cerr = cudaFreeHost(AALo);CHKERRCUDA(cerr);<br></font></div><div><br></div><div><div>nzLower is about 140K. Here is my timer data, in a stage after a "warm up stage":<br></div><div><br></div><div>   Inner-MatSeqAIJCUSPARSEBuildILULowerTriMatrix      12 1.0 <b>2.3514e-01 </b>1.1 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00  3  0  0  0  0  23  0  0  0  0     0       0     12 1.34e+01    0 0.00e+00  0<br>   MatSeqAIJCUSPARSEBuildILULowerTriMatrix: cudaMallocHost      12 1.0 <b>1.5448e-01</b> 1.1 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00  2  0  0  0  0  15  0  0  0  0     0       0      0 0.00e+00    0 0.00e+00  0<br>     MatSeqAIJCUSPARSEBuildILULowerTriMatrix: cudaFreeHost      12 1.0 <b>8.3908e-02 </b>1.2 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00  1  0  0  0  0   8  0  0  0  0     0       0      0 0.00e+00    0 0.00e+00  0<br></div><div><br></div><div>This 0.23 sec happens in Upper also, for a total of ~0.46, which pretty much matches the difference with Kokkos.</div><div><br></div><div>Any ideas?</div></div></div><div><br></div><div>Thanks,</div><div>Mark</div></div>