<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div class=""><div class="h5"><br></div></div>
<br>
We're seeing a bit lower performance in MatMult with GAMG, perhaps<br>
because we are not using block formats specialized for elasticity.<br>
<br></blockquote><div><br></div><div>The block info seems to be there.  </div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

Mark, what else is different?  </blockquote><div><br></div><div><div>* Prometheus seems to be coarsening slower and taking nearly twice the iterations.</div><div>* GAMG is running slower and the kernels are too.  This would indicate that the partitions are different (not likely) or the coarse grids are larger, or something else?</div>
<div><br></div></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">What does Prometheus do differently in<br>

setup (not the bottleneck here, but I'm curious).<br></blockquote><div><br></div><div>The setup is quite different.  My RAP just does brute force four nested loops with a lot of unrolling.</div><div>My graph setup stuff is more highly optimized in Prometheus in some ways.  I would think GAMG is doing more work on coarse grids, but it seems to have fewer of them.  The verbose output should shed some light on this.</div>
<div><br></div><div>These two runs do about the same number of flops and Prometheus is running a little faster flop rate and is solving a little faster. The GAMG setup is a lot slower and that has a small effect on the total solve time.</div>
<div><br></div><div>SOR is two iterations is twice as expensive and twice as powerful, roughly.</div><div><br></div><div>So GAMG is just running slower.</div><div><br></div><div>Prometheus does repartition coarse grids. Perhaps this is a poor network and/or the initial partitioning is poor so the coarse grid repartitioning is a big help.</div>
</div><br></div></div>