<div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span style="font-size:12.8000001907349px">Is your intent </span><span style="font-size:12.8000001907349px">to solve a problem that matters in a way that makes sense for a </span><span style="font-size:12.8000001907349px">scientist or engineer</span></blockquote><div><br></div><div>I want to see if we can speed up the time stepper for a large system using GPUs. For large systems with sparse matrix of size 420,000^2, each time step takes 341 sec on a single process and 180 seconds on 16 processes. So the scaling isn't that good. We also run out of memory with more number of processes. </div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, May 30, 2015 at 11:01 PM, Jed Brown <span dir="ltr"><<a href="mailto:jed@jedbrown.org" target="_blank">jed@jedbrown.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">Harshad Sahasrabudhe <<a href="mailto:hsahasra@purdue.edu">hsahasra@purdue.edu</a>> writes:<br>
> For now, I want to serialize the matrices and vectors and offload them to 1<br>
> GPU from the root process. Then distribute the result later.<br>
<br>
</span>Unless you have experience with these solvers and the overheads<br>
involved, I think you should expect this to be much slower than simply<br>
doing the solves using a reasonable method in the CPU.  Is your intent<br>
to solve a problem that matters in a way that makes sense for a<br>
scientist or engineer, or is it to demonstrate that a particular<br>
combination of packages/methods/hardware can be used?<br>
</blockquote></div><br></div>