On Sat, Nov 26, 2011 at 12:07 PM, Jed Brown <span dir="ltr"><<a href="mailto:jedbrown@mcs.anl.gov">jedbrown@mcs.anl.gov</a>></span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="gmail_quote"><div class="im">On Fri, Nov 25, 2011 at 16:48, Matthew Knepley <span dir="ltr"><<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div>Synopsis of what I said before to elicit comment:</div><div><br></div><div>1) I think the only thing we can learn from Brook, CUDA, OpenCL is that you identify threads by a grid ID.</div>
<div><br></div><div>2) Things like BLAS are so easy that you can move up to the streaming model, but this does not work for </div><div><br></div><div>  - FD and FEM residual evaluation (Jed has an FD example with Aron, SNES ex52 is my FEM example)</div>


<div><br></div><div>  - FD and FEM Jacobian evaluation</div></blockquote><div><br></div></div><div>I think these are also probably too simple. Discontinuous Galerkin with overlapped flux computations and interior integration would be a somewhat better model problem. Nonlinear Gauss-Seidel in a multigrid context would be another.</div>
</div></blockquote><div><br></div><div>I do not see DG a fundamentally different.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="gmail_quote">
<div> </div><div class="im"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><br></div><div>3) If you look at ex52 I do a "thread transposition" meaning threads start working on different areas of</div>

<div>    memory which looks like a transpose on a 2D grid. I can do this using shared memory for the vector group.</div>
<div><br></div><div>The API is very simple. Give grid indices to the thread, and its done in CUDA and OpenCL essentially the</div><div>same way.</div></blockquote></div></div><br><div>As is, this seems to assume a flat memory model and the memory access only appears in how the kernel uses threadIdx to determine what memory to operate on. If we could say something about this up-front, then the library could schedule tasks relative to memory and perhaps handle some updates for distributed memory.</div>
</blockquote><div><br></div><div>My first rule would be, never assume library intelligence. So we make it possible to give a schedule for kernels, but initially there is</div><div>no scheduling code. It is user input, with a dumb default. The flat memory is the thread shared memory, and everything else is messages.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div>Can we have a way to specify the required memory access before launching the kernels?</div>
</blockquote></div><br>This is exactly what Victor's thing is about<div><br></div><div>   Matt<br clear="all"><div><br></div>-- <br>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>
-- Norbert Wiener<br>
</div>