<div class="gmail_quote">On Tue, Jan 3, 2012 at 17:48, Barry Smith <span dir="ltr"><<a href="mailto:bsmith@mcs.anl.gov">bsmith@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Yes the Blas norm is often a good bit (much) slower than the Blas dot for the reason Jack points out. This is a very real measurable result using blas obtained from the Fortran reference that has not been optimized (by taking out the stability crap)</blockquote>
<div><br></div><div>It seems silly to optimize for the reference BLAS. If the concern is just this routine and just on x86-64, I would be inclined to write a simple vectorized implementation (probably using SSE intrinsics) that still includes the stability stuff.</div>
<div><br></div><div>Whatever the case, I'm not a fan of replacing nrm2() with dot().</div></div>