<div dir="ltr">I am looking at TS/SNES/KSP/GAMG solve with Landau, which is all on the GPU, but it looks like MatGetDiagonal (see attached), and to a lesser extent VecPointWiseMult (biggest red band on the right side under PCApply), are resulting in expensive CPU-GPU movement. MatGetDiagonal on the fine grid is taking about 10x the time of TFQMR/GAMG iteration.<div><br></div><div>Attached is a view of this with CUDA and an nsys data file with Kokkos that is pretty much the same.</div><div><br></div><div>Any thoughts on how to fix this?</div><div><br></div><div>Thanks,</div><div>Mark</div></div>