<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><DIV>Rajeev,</DIV>
<DIV>when the problem/issue#2 popped up, the processes had already ran for a few minutes.&nbsp; Many MPICH</DIV>
<DIV>call had been made and completed successfully,&nbsp; I don't know the counts, maybe 10 millions ?</DIV>
<DIV>&nbsp;</DIV>
<DIV>All the processes were running on 1 physical machine.&nbsp; I don't know for sure what they were doing</DIV>
<DIV>when the 'idle' happened, my guess is MPI calls, that is the only place the processes ever wait</DIV>
<DIV>for external input.</DIV>
<DIV>&nbsp;</DIV>
<DIV>I forgot to mention&nbsp; that the processes share a global memory created by explicit shm call.</DIV>
<DIV>However, I have 3 other tests that also use this shm feature in my code, and they don't have this issue.</DIV>
<DIV>&nbsp;</DIV>
<DIV>by any mean, 1 minute of continuous idle for all processes in parallized run is very strange.</DIV>
<DIV>&nbsp;</DIV>
<DIV>tan</DIV>
<DIV><BR>&nbsp;</DIV>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt"><BR>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt"><FONT size=2 face=Tahoma>
<HR SIZE=1>
<B><SPAN style="FONT-WEIGHT: bold">From:</SPAN></B> Rajeev Thakur &lt;thakur@mcs.anl.gov&gt;<BR><B><SPAN style="FONT-WEIGHT: bold">To:</SPAN></B> mpich-discuss@mcs.anl.gov<BR><B><SPAN style="FONT-WEIGHT: bold">Sent:</SPAN></B> Saturday, July 11, 2009 9:27:23 AM<BR><B><SPAN style="FONT-WEIGHT: bold">Subject:</SPAN></B> Re: [mpich-discuss] version 1.1 strange behavior : all processes becomeidle for extensive period<BR></FONT><BR>
<STYLE type=text/css>DIV {
MARGIN:0px;}
</STYLE>

<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial>The first issue has been fixed. If you try one of the nightly snapshots, it should go away. It will be included in 1.1.1 to be out next week.</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial></FONT></SPAN>&nbsp;</DIV>
<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial>Can you tell us more about the second issue. What are the processes doing when they suddenly become idle? Have they already communicated before? Are they all running on a single machine?</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial></FONT></SPAN>&nbsp;</DIV>
<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial>Rajeev</FONT></SPAN></DIV>
<DIV dir=ltr align=left><SPAN class=671442516-11072009><FONT color=#0000ff size=2 face=Arial></FONT></SPAN>&nbsp;</DIV><FONT color=#0000ff size=2 face=Arial></FONT><BR>
<BLOCKQUOTE style="BORDER-LEFT: #0000ff 2px solid; PADDING-LEFT: 5px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">
<DIV dir=ltr lang=en-us class=OutlookMessageHeader align=left>
<HR tabIndex=-1>
<FONT size=2><FONT face=Tahoma><B>From:</B> mpich-discuss-bounces@mcs.anl.gov [mailto:mpich-discuss-bounces@mcs.anl.gov] <B>On Behalf Of </B>chong tan<BR><B>Sent:</B> Friday, July 10, 2009 6:20 PM<BR><B>To:</B> mpich-discuss@mcs.anl.gov<BR><B>Subject:</B> [mpich-discuss] version 1.1 strange behavior : all processes becomeidle for extensive period<BR></FONT><SPAN class=671442516-11072009><FONT color=#0000ff face=Arial>&nbsp;&nbsp;</FONT></SPAN></FONT><BR></DIV>
<DIV></DIV>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt">
<DIV>I am seeing this funny situation which I did not see on 1.0.6 and 1.0.8.&nbsp; Some background:</DIV>
<DIV>&nbsp;</DIV>
<DIV>machine : INTEL 4Xcore 2</DIV>
<DIV>&nbsp;</DIV>
<DIV>running mpiexec -n 4</DIV>
<DIV>&nbsp;</DIV>
<DIV>machine has 32G of mem.&nbsp; </DIV>
<DIV>&nbsp;</DIV>
<DIV>when my application runs,&nbsp; almost all memory are used.&nbsp; However, there is no swapping.</DIV>
<DIV>I have exclusive use of the machine, so contention is not an issue.</DIV>
<DIV>&nbsp;</DIV>
<DIV>issue #1 :&nbsp; processes take extra long to be initialized, compared to 1.0.6</DIV>
<DIV>issue #2 : during the run, at time all of them will become idle at the same time, for almost a</DIV>
<DIV>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; minute.&nbsp; We never observed this with 1.0.6</DIV>
<DIV>&nbsp;</DIV>
<DIV>&nbsp;</DIV>
<DIV>The codes are the same, only linked with different versions of MPICH2.</DIV>
<DIV>&nbsp;</DIV>
<DIV>MPICH2 was built with --enable-threads=multiple for 1.1.&nbsp; without for 1.0.6 or 1.0.8</DIV>
<DIV>&nbsp;</DIV>
<DIV>MPI calls are all in the main application thread.&nbsp; I used only 4 MPI functions :</DIV>
<DIV>init(), Send(), Recv() and Barrier().&nbsp; </DIV>
<DIV>&nbsp;</DIV>
<DIV>&nbsp;</DIV>
<DIV>&nbsp;</DIV>
<DIV>any suggestion ?</DIV>
<DIV>&nbsp;</DIV>
<DIV>thanks</DIV>
<DIV>tan</DIV>
<DIV><BR>&nbsp;</DIV>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt"><BR>
<DIV style="FONT-FAMILY: times new roman, new york, times, serif; FONT-SIZE: 12pt">
<BLOCKQUOTE style="BORDER-LEFT: #0000ff 2px solid; PADDING-LEFT: 5px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">&nbsp;</BLOCKQUOTE></DIV></DIV></DIV><BR></BLOCKQUOTE></DIV></DIV></div><br>

      </body></html>