<div dir="ltr"><div dir="ltr">On Wed, May 27, 2020 at 7:34 PM Jed Brown <<a href="mailto:jed@jedbrown.org">jed@jedbrown.org</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> writes:<br>
<br>
> Nvidias's NSight with 2D Q3 and bs=10. (attached).<br>
<br>
Thanks; this is basically the same as a CPU -- the cost is searching the<br>
sorted rows for the next entry.  I've long thought we should optimize<br>
the implementations to fast-path when the next column index in the<br>
sparse matrix equals the next index in the provided block.  It'd just<br>
take a good CPU test to demonstrate that payoff.<br>
</blockquote></div><br clear="all"><div>So you first check whether the next index is the one in the set passed in, and otherwise</div><div>fall back on the search? Good idea.</div><div><br></div><div>   Matt</div><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>