<div dir="ltr"><div><div><div><br></div>Hi Hong, <br><br></div>So, the speedup was coming from increased DRAM bandwidth and not the usage of MCDRAM. <br><br></div><div>There is moderate MPI imbalance, large amount of Back-End stalls and good vectorization. <br></div><div><br></div>I'm attaching my submit script, PETSc log file and Intel APS summary (all as non-HTML text). I can give more detailed analysis via Intel Vtune if needed. <br><br><div><div><div><br></div><div>Thank You, <br></div><div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div style="font-size:12.8px">Sajid Ali<br></div><div style="font-size:12.8px">Applied Physics<br></div><div style="font-size:12.8px">Northwestern University</div></div></div></div></div></div></div>