Hi everyone:<br> <br>  I am wondering to most MPI codes, which is the performance bottleneck, the latency or the B/W?<br><br> 
I am doing research to optimize the cache-coherent shared memory architecture to run MPI codes more efficiently. Although I am trying to reduce the latency for message data transferring, then I
realized that maybe the B/W is the real bottleneck. I have heard the
comments that most well-written MPI codes  are not latency-sensitive
but B/W sensitive. So instead of making single message transfer faster, increasing the B/W to transfer the chunk of data faster is the right way to improve
performance.<br>
<br>  Can you give us some comments about this?<br><br>  Thank you in advance!<br><br>-- <br>************************************************<br>Junli Gu--谷俊丽<br>Coordinate Science Lab<br>University of Illinois at Urbana-Champaign<br>
************************************************<br>