<p>Try telling your MPI to run each process on different sockets, or on the same socket with different caches. This is easy with Open MPI and with MPICH+Hydra. You can simply use taskset for serial jobs.</p>
<p><blockquote type="cite">On Feb 3, 2011 5:46 PM, &quot;Barry Smith&quot; &lt;<a href="mailto:bsmith@mcs.anl.gov">bsmith@mcs.anl.gov</a>&gt; wrote:<br><br><br>
   Based on these numbers (that is assuming these numbers are a correct accounting of how much memory bandwidth you can get from the system*) you essentially have a one processor machine that they sold to you as a 8 processor machine for sparse matrix computation. The one core run is using almost all the memory bandwidth, adding more cores in the computation helps very little because it is completely starved for memory bandwidth.<br>

<br>
   Barry<br>
<br>
* perhaps something in the OS is not configured correctly and thus not allowing access to all the memory bandwidth, but this seems unlikely.<br>
<p><font color="#500050"><br>On Feb 3, 2011, at 4:29 PM, Vijay S. Mahadevan wrote:<br><br>&gt; Barry,<br>&gt; <br>&gt; The outputs are attached. I do...</font></p>&gt; &lt;basicversion_np1.out&gt;&lt;basicversion_np2.out&gt;<br>

<br>
</blockquote></p>