<div dir="ltr">Thank you everyone for your valuable materials and comments.<div><br>Currently, I can use a maximum of 8 nodes on a computer system with a 10 Gb InfiniBand network.<br>I am applying to use all the nodes in this computer system (about 300 nodes). <div>It will take some time.<br>I also hope 300 nodes are enough to check the effectiveness of a simple nonblocking computation test where the inner product overlaps the matrix-vector multiplication.<br>Have a great weekend!!<br>Viet<br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jan 29, 2021 at 1:35 AM Jed Brown <<a href="mailto:jed@jedbrown.org">jed@jedbrown.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Lawrence Mitchell <<a href="mailto:wencel@gmail.com" target="_blank">wencel@gmail.com</a>> writes:<br>
<br>
>> On 27 Jan 2021, at 16:30, Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>> wrote:<br>
>> <br>
>> This is very important to do _first_. It would probably only take you a day to measure the Allreduce time on your target, say the whole machine you run on.<br>
><br>
> Why plots like this are not _absolutely standard_ on all HPC sites' webpages is a source of continuing mystery to me.<br>
<br>
I've been asking for it for years. They say if you care, you should just go run it. Never mind how wasteful that is, and the time commitment to doing so. I think they often avoid making a commitment because latency is super variable (depending on the partition you get and what other jobs are running elsewhere on the machine; Blue Gene famously didn't have that problem).<br>
<br>
Meanwhile, latency on cloud providers keeps dropping and they're sure to beat conventional HPC centers to publishing a dashboard of expected latency for different configurations.  <br>
<br>
This page illustrates how hardware reductions scale much better than log(P).<br>
<br>
<a href="https://www.mcs.anl.gov/~fischer/gop/" rel="noreferrer" target="_blank">https://www.mcs.anl.gov/~fischer/gop/</a><br>
<br>
> Although I guess Figure 2 from here <a href="https://www.mcs.anl.gov/papers/P5347-0515.pdf" rel="noreferrer" target="_blank">https://www.mcs.anl.gov/papers/P5347-0515.pdf</a> probably gives me a clue.<br>
><br>
> Viet, I suspect that Matt thinks you should try and produce a figure like Figure 3 from that linked paper.<br>
><br>
> Lawrence<br>
</blockquote></div>