<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr">On Tue, Dec 25, 2018 at 12:10 AM Jed Brown <<a href="mailto:jed@jedbrown.org">jed@jedbrown.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> writes:<br>
<br>
> On Mon, Dec 24, 2018 at 4:56 PM Jed Brown <<a href="mailto:jed@jedbrown.org" target="_blank">jed@jedbrown.org</a>> wrote:<br>
><br>
>> Mark Adams via petsc-users <<a href="mailto:petsc-users@mcs.anl.gov" target="_blank">petsc-users@mcs.anl.gov</a>> writes:<br>
>><br>
>> > Anyway, my data for this is in my SC 2004 paper (MakeNextMat_private in<br>
>> > attached, NB, this is code that I wrote in grad school). It is memory<br>
>> > efficient and simple, just four nested loops i,j,I,J: C(I,J) =<br>
>> > P(i,I)*A(i,j)*P(j,J). In eyeballing the numbers and from new data that I<br>
>> am<br>
>> > getting from my bone modeling colleagues, that use this old code on<br>
>> > Stampede now, the times look reasonable compared to GAMG. This is<br>
>> optimized<br>
>> > for elasticity, where I unroll loops (so it is really six nested loops).<br>
>><br>
>> Is the A above meant to include some ghosted rows?<br>
>><br>
><br>
> You could but I was thinking of having i in the outer loop. In C(I,J) =<br>
> P(i,I)*A(i,j)*P(j,J), the iteration over 'i' need only be the local rows of<br>
> A (and the left term P).<br>
<br>
Okay, so you need to gather those rows of P referenced by the<br>
off-diagonal parts of A. </blockquote><div><br></div><div>yes, and this looks correct ..</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"> Once you have them, do<br>
<br>
  for i:<br>
    v[:] = 0 # sparse vector<br>
    for j:<br>
      v[:] += A[i,j] * P[j,:]<br>
    for I:<br>
      C[I,:] += P[i,I] * v[:]<br>
<br>
One inefficiency is that you don't actually get "hits" on all the<br>
entries of C[I,:], but that much remains no matter how you reorder loops<br>
(unless you make I the outermost).<br></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
>> > In thinking about this now, I think you want to make a local copy of P<br>
>> with<br>
>> > rows (j) for every column in A that you have locally, then transpose this<br>
>> > local thing for the P(j,J) term. A sparse AXPY on j. (My code uses a<br>
>> > special tree data structure but a matrix is simpler.)<br>
>><br>
>> Why transpose for P(j,J)?<br>
>><br>
><br>
> (premature) optimization. I was thinking 'j' being in the inner loop and<br>
> doing sparse inner product, but now that I think about it there are other<br>
> options.<br>
<br>
Sparse inner products tend to be quite inefficient.  Explicit blocking<br>
helps some, but I would try to avoid it.<br></blockquote><div><br></div><div>Yea, the design space here is non-trivial.</div><div><br></div><div>BTW, I have a Cal ME grad student that I've been working with on getting my old parallel FE / Prometheus code running on Stampede for his bone modeling problems. He started from zero in HPC but he is eager and has been picking it up. If there is interest we could get performance data with the existing code, as a benchmark, and we could generate matrices, if anyone wants to look into this.</div><div> </div></div></div>