<div class="gmail_quote">On Tue, Jan 3, 2012 at 21:37, Barry Smith <span dir="ltr"><<a href="mailto:bsmith@mcs.anl.gov">bsmith@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
 Come on, 95% of all Fortran users wouldn't even understand the above sentence.</blockquote></div><br><div>Has anyone tried just unrolling the loop four times in C or Fortran, with a separate "counter" for each stripe? The reference implementation will force this to be totally sequential. All we have to do is hit the memory bandwidth limit, which should be pretty easy. Did you have a stand-alone benchmark or were you just measuring with -log_summary?</div>