<html><head><meta http-equiv="Content-Type" content="text/html; charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class=""><br class=""></div>  Here except for VecNorm the GPU is used effectively in that most of the time is time is spent doing real work on the GPU<div class=""><br class=""></div><div class=""><div class="">VecNorm              402 1.0 4.4100e-01 6.1 1.69e+09 1.0 0.0e+00 0.0e+00 4.0e+02  0  1  0  0 20   9  1  0  0 33 30230   225393      0 0.00e+00    0 0.00e+00 100</div><div class=""><br class=""></div><div class="">Even the dots are very effective, only the VecNorm flop rate over the full time is much much lower than the vecdot. Which is somehow due to the use of the GPU or CPU MPI in the allreduce?</div><div class=""><br class=""></div><div class=""><br class=""></div><div><br class=""><blockquote type="cite" class=""><div class="">On Jan 24, 2022, at 12:14 PM, Mark Adams <<a href="mailto:mfadams@lbl.gov" class="">mfadams@lbl.gov</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div dir="ltr" class=""><br class=""></div><div dir="ltr" class=""><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br class="">
Mark, can we compare with Spock?<br class=""></blockquote><div class=""><br class=""></div><div class=""> Looks much better. This puts two processes/GPU because there are only 4.</div></div></div>
</div>
<span id="cid:f_kysy6if70"><jac_out_001_kokkos_Spock_6_1_notpl.txt></span></div></blockquote></div><br class=""></div></body></html>