<div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span style="font-size:12.8000001907349px">which preconditioner are you </span><span style="font-size:12.8000001907349px">using and how many iterations does it require?</span></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"> <span style="font-size:12.8000001907349px">This is a linear autonomous system?</span></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"> </blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span class="im" style="font-size:12.8000001907349px">> How long does it take to solve that system stand-alone using MAGMA, including<br></span><span class="im" style="font-size:12.8000001907349px">>> the data transfers?<br></span><span class="im" style="font-size:12.8000001907349px">><br></span><span class="im" style="font-size:12.8000001907349px">> I'm still working on these tests.</span><span class="im" style="font-size:12.8000001907349px"><br></span><span style="font-size:12.8000001907349px">Do that first.</span> </blockquote><div><br></div><div>Thank you very much for the guidance. I'll get back with the answers tomorrow. </div><div> </div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, May 30, 2015 at 11:50 PM, Jed Brown <span dir="ltr"><<a href="mailto:jed@jedbrown.org" target="_blank">jed@jedbrown.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">Harshad Sahasrabudhe <<a href="mailto:hsahasra@purdue.edu">hsahasra@purdue.edu</a>> writes:<br>
<br>
>><br>
>>  Surely you're familiar with this.<br>
><br>
><br>
> Yes, I'm familiar with this. We are running on Intel Xeon E5 processor. It<br>
> has enough bandwidth and performance.<br>
<br>
</span>One core saturates a sizeable fraction of the memory bandwidth for the<br>
socket.  You certainly can't expect 10x speedups when moving from 1 to<br>
16 cores for a memory bandwidth limited application.<br>
<span class=""><br>
> Is the poor scaling due to increased iteration count?  What method are you<br>
>> using?<br>
><br>
> This is exactly why we have poor scaling. We have tried KSPGMRES.<br>
<br>
</span>GMRES is secondary for this discussion; which preconditioner are you<br>
using and how many iterations does it require?<br>
<span class=""><br>
> This sounds like a problem with your code (non-scalable data structure).<br>
><br>
> We need to work on the algorithm for matrix assembly. In it's current<br>
> state, one CPU ends up doing much of the work.This could be the cause of<br>
> bad memory scaling. This doesn't contribute to the bad scaling to time<br>
> stepping, time taken for time stepping is counted separately from assembly.<br>
<br>
</span>This is a linear autonomous system?<br>
<span class=""><br>
> How long does it take to solve that system stand-alone using MAGMA, including<br>
>> the data transfers?<br>
><br>
> I'm still working on these tests.<br>
<br>
</span>Do that first.<br>
</blockquote></div><br></div>