<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><br class=""><div><br class=""><blockquote type="cite" class=""><div class="">On Dec 3, 2020, at 2:25 PM, C B <<a href="mailto:cebau.mail@gmail.com" class="">cebau.mail@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">Resorting to your expertise in software performance:</p><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">Subject: Looking for a crude assessment of CPU speed or DRAM
speed bottlenecks in shared memory multi-core PCs</p><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">On a typical PC with one Xeon CPU (8 cores),  a serial code runs a case in say 10 hours of
Wall time, and on the same computer 4 instances of the same code running simultaneously
(the same case) take essentially the same Wall time, 10 hrs or a marginal
increase such as 10hrs 30 mins.   There is
no I/O, lots of free physical RAM, each core running an instance shows ~ 100%
utilization.</p><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">Q1: What could we conclude about this hardware-software-case
combination in terms of being CPU bound, memory bandwidth bound, etc ?</p><div class=""><br class=""></div></div></div></blockquote>   It does not appear to be memory bandwidth bound.  Presumably the 4 cases will each be utilizing the same memory bandwidth as one case so I think one can conclude that the 1 case is using at most 25 percent of the memory bandwidth.</div><div><br class=""></div><div><br class=""><blockquote type="cite" class=""><div class=""><div dir="ltr" class=""><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">Q2: Can we say that this hardware-software-case combination is
not DRAM bound, and that it “may be amenable” to a good speedup running
multiple threads in the same shared memory environment ?</p><div class=""><br class=""></div></div></div></blockquote>   I think this is good a way to say it, "since it is not DRAM bound it may be amendable to good speedup running multiple threads", it may also be amendable to MPI parallelism. There are other factors that affect parallel performance besides memory bandwidth without more information these are unknown".</div><div><br class=""></div><div>  Barry</div><div><br class=""></div><div><br class=""></div><div><br class=""><blockquote type="cite" class=""><div class=""><div dir="ltr" class=""><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">I did look into the shared memory benchmark  <a href="http://www.cs.virginia.edu/stream" style="color:rgb(5,99,193)" class="">http://www.cs.virginia.edu/stream</a>  but I could not draw any conclusions.</p><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">If this is a trivial question, please point me to a good resource
to learn.</p><p class="MsoNormal" style="margin:0in 0in 8pt;line-height:107%;font-size:11pt;font-family:Calibri,sans-serif">Thanks!</p></div>
</div></blockquote></div><br class=""></body></html>