<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">There are a few thing to be expected running on mult-core CPU.&nbsp; In general, 1 dual-core</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">CPU does not perform as well as 2 uni-core CPUs of the same caliber.&nbsp; The shared Cache,</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">memory IO and other interfaces&nbsp;are the key reasons why.&nbsp; Cache for one, the cost of Cache</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">eviction can be 2X-3X for dual-core CPU, on top of that, you have 2 processes contributing</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">to the rate of evictions.</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">&nbsp;</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">tan</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">&nbsp;</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">&nbsp;</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif"><BR>&nbsp;</DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif">----- Original Message ----<BR>From: Tony Ladd &lt;tladd@che.ufl.edu&gt;<BR>To: mpich-discuss@mcs.anl.gov<BR>Sent: Wednesday, December 26, 2007 10:00:03 AM<BR>Subject: [MPICH] MPICH2 performance issue with dual core<BR><BR>I am using MPICH2 over Gigabit ethernet (Intel PRO 1000 + Extreme <BR>Networks x450a-s48t switches). For a single process per node MPICH2 is <BR>very fast; typical throughput on edge exchange is ~100MBytes/sec both <BR>ways. MPICH2 has more uniform throughput than LAM, is much faster than <BR>OpenMPI and almost as good throughput as MPIGAMMA (using 1MB TCP <BR>buffers). Latency is 24 microsecs with tuned NIC drivers. So far so <BR>(very) good.<BR><BR>Collective communications are excellent for 1 process as well, but <BR>terrible with 2 processes per node. For example, an AlltoAll with 16 <BR>processes has average 1-way throughput of 56MBytes/sec when
 distributed <BR>over 16 nodes but only 6MBytes per sec when using 8 nodes and 2 <BR>processes per node. This is of course the reverse of what one would <BR>expect. I also see the latency goes up more with 2 processes per node. <BR>So a 4 process Barrier call takes about 58 microsecs on 4 nodes and 68 <BR>microsecs on 2 nodes. I checked with a single node and two processes and <BR>that was very fast (over 400MBytes/sec) so perhaps the issue is the <BR>interaction of shared memory and TCP. I compiled ch3:ssm and ch3:nemesis <BR>with the same result. Also with and without --enable-fast. This also did <BR>little.<BR><BR>Finally I notice the cpu utilization is 100%; can this be part of the <BR>problem?<BR><BR>I apologize if this has been gone over before, but I am new to MPICH2.<BR><BR>Thanks<BR><BR>Tony<BR><BR>-- <BR>Tony Ladd<BR><BR>Chemical Engineering Department<BR>University of Florida<BR>Gainesville, Florida 32611-6005<BR>USA<BR><BR>Email:
 tladd-"(AT)"-che.ufl.edu<BR>WebL&nbsp; <A href="http://ladd.che.ufl.edu/" target=_blank>http://ladd.che.ufl.edu</A><BR><BR>Tel:&nbsp; (352)-392-6509<BR>FAX:&nbsp; (352)-392-9514<BR><BR></DIV>
<DIV style="FONT-SIZE: 12pt; FONT-FAMILY: times new roman, new york, times, serif"><BR></DIV></div><br>
      <hr size=1>Be a better friend, newshound, and 
know-it-all with Yahoo! Mobile. <a href="http://us.rd.yahoo.com/evt=51733/*http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ "> Try it now.</a></body></html>