<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2658.34">
<TITLE>RE: [MPICH] Impact of changing recvTimeout</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>Interesting thought -- I will check this out.&nbsp; </FONT>
</P>

<P><FONT SIZE=2>Our job submission software chooses a master node for each submission, so it isn't always the same node; this behaviour is consistant regardless of the starting node.&nbsp; </FONT></P>

<P><FONT SIZE=2>Is there a number I should worry about?&nbsp; Some reasonable maximum? :)</FONT>
</P>

<P><FONT SIZE=2>I'm curious: how many cpus are other folks successfully using?</FONT>
</P>

<P><FONT SIZE=2>Simon</FONT>
</P>

<P><FONT SIZE=2>&nbsp;</FONT>
</P>

<P><FONT SIZE=2>-----Original Message-----</FONT>
<BR><FONT SIZE=2>From: owner-mpich-discuss@mcs.anl.gov [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of Yusong Wang</FONT>
<BR><FONT SIZE=2>Sent: May 23, 2006 11:10 AM</FONT>
<BR><FONT SIZE=2>To: Galton, Simon</FONT>
<BR><FONT SIZE=2>Cc: 'mpich-discuss@mcs.anl.gov'</FONT>
<BR><FONT SIZE=2>Subject: Re: [MPICH] Impact of changing recvTimeout</FONT>
</P>

<P><FONT SIZE=2>I suspect this is something related with socket operations. You could try the command netstat | grep tcp | wc -l on the master working node (not the head node you submitted the job) to see the number of ports used before, during and after execution of your application. If you run the application several times, I would expect the returned number to increase.</FONT></P>

<P><FONT SIZE=2>Yusong</FONT>
</P>

<P><FONT SIZE=2>&nbsp;</FONT>
<BR><FONT SIZE=2>On Tue, 2006-05-23 at 08:48 -0400, Galton, Simon wrote:</FONT>
<BR><FONT SIZE=2>&gt; I finally found the &quot;timeout&quot; variable in mpdrun.py.</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; It's called recvTimeout, and it's normally set to 20 (which turns out </FONT>
<BR><FONT SIZE=2>&gt; to be 20 seconds).</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; I found that I had to set it to 45 to reliably run on 54 cpus, and 110 </FONT>
<BR><FONT SIZE=2>&gt; to reliably run on 122 cpus.</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; Is there anything &quot;wrong&quot; with changing this variable?&nbsp; Is there any </FONT>
<BR><FONT SIZE=2>&gt; other impact?</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; Simon</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; -----Original Message-----</FONT>
<BR><FONT SIZE=2>&gt; From: Galton, Simon</FONT>
<BR><FONT SIZE=2>&gt; Sent: May 18, 2006 11:08 AM</FONT>
<BR><FONT SIZE=2>&gt; To: mpich-discuss@mcs.anl.gov</FONT>
<BR><FONT SIZE=2>&gt; Subject: Serious MPICH2 problem with many CPUs</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; Folks,</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; We're running into a problem when dispatching to &quot;many&quot; CPUs.&nbsp; It </FONT>
<BR><FONT SIZE=2>&gt; seems when we hit ~50 CPUs on our dual-Xeon GigE-connected cluster we </FONT>
<BR><FONT SIZE=2>&gt; start to get the following error, and the job fails:</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; mpdrun_12429 (mpd_recv 386): other error after recv </FONT>
<BR><FONT SIZE=2>&gt; __main__.mpdrunInterrupted :SIGALRM:</FONT>
<BR><FONT SIZE=2>&gt; mpdrun failed: no msg recvd from mpd when expecting ack of request </FONT>
<BR><FONT SIZE=2>&gt;&nbsp;&nbsp;&nbsp;&nbsp; traceback: [('/usr/local/mpich2/bin/mpdrun.py', '256', 'mpdrun'), </FONT>
<BR><FONT SIZE=2>&gt; ('/usr/local/mpich2/bin/mpdrun.py', '978', '?')]</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; It happens 100% of the time at 54 CPUs or more.</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; It looks like a setup timeout.&nbsp; Can we increase/fix this?&nbsp; I'd rather </FONT>
<BR><FONT SIZE=2>&gt; not recompile (validation issue)...</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; Simon Galton</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; CONFIDENTIAL AND PRIVILEGED INFORMATION NOTICE</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; This e-mail, and any attachments, may contain information that is </FONT>
<BR><FONT SIZE=2>&gt; confidential, subject to copyright, or exempt from disclosure.</FONT>
<BR><FONT SIZE=2>&gt; Any unauthorized review, disclosure, retransmission, dissemination or </FONT>
<BR><FONT SIZE=2>&gt; other use of or reliance on this information may be unlawful and is </FONT>
<BR><FONT SIZE=2>&gt; strictly prohibited.</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; AVIS D'INFORMATION CONFIDENTIELLE ET PRIVILGIE</FONT>
<BR><FONT SIZE=2>&gt; </FONT>
<BR><FONT SIZE=2>&gt; Le prsent courriel, et toute pice jointe, peut contenir de </FONT>
<BR><FONT SIZE=2>&gt; l'information qui est confidentielle, rgie par les droits d'auteur, ou </FONT>
<BR><FONT SIZE=2>&gt; interdite de divulgation. Tout examen, divulgation, retransmission, </FONT>
<BR><FONT SIZE=2>&gt; diffusion ou autres utilisations non autorises de l'information ou </FONT>
<BR><FONT SIZE=2>&gt; dpendance non autorise envers celle-ci peut tre illgale et est </FONT>
<BR><FONT SIZE=2>&gt; strictement interdite.</FONT>
</P>

<br><br><table bgcolor=white style="color:black"><tr><td><br>CONFIDENTIAL&nbsp;AND&nbsp;PRIVILEGED&nbsp;INFORMATION&nbsp;NOTICE<br>
<br>
This&nbsp;e-mail,&nbsp;and&nbsp;any&nbsp;attachments,&nbsp;may&nbsp;contain&nbsp;information&nbsp;that<br>
is&nbsp;confidential,&nbsp;subject&nbsp;to&nbsp;copyright,&nbsp;or&nbsp;exempt&nbsp;from&nbsp;disclosure.<br>
Any&nbsp;unauthorized&nbsp;review,&nbsp;disclosure,&nbsp;retransmission,&nbsp;<br>
dissemination&nbsp;or&nbsp;other&nbsp;use&nbsp;of&nbsp;or&nbsp;reliance&nbsp;on&nbsp;this&nbsp;information&nbsp;<br>
may&nbsp;be&nbsp;unlawful&nbsp;and&nbsp;is&nbsp;strictly&nbsp;prohibited.&nbsp;&nbsp;<br>
<br>
AVIS&nbsp;D&#39;INFORMATION&nbsp;CONFIDENTIELLE&nbsp;ET&nbsp;PRIVILÉGIÉE<br>
<br>
Le&nbsp;présent&nbsp;courriel,&nbsp;et&nbsp;toute&nbsp;pièce&nbsp;jointe,&nbsp;peut&nbsp;contenir&nbsp;de&nbsp;<br>
l&#39;information&nbsp;qui&nbsp;est&nbsp;confidentielle,&nbsp;régie&nbsp;par&nbsp;les&nbsp;droits&nbsp;<br>
d&#39;auteur,&nbsp;ou&nbsp;interdite&nbsp;de&nbsp;divulgation.&nbsp;Tout&nbsp;examen,&nbsp;<br>
divulgation,&nbsp;retransmission,&nbsp;diffusion&nbsp;ou&nbsp;autres&nbsp;utilisations&nbsp;<br>
non&nbsp;autorisées&nbsp;de&nbsp;l&#39;information&nbsp;ou&nbsp;dépendance&nbsp;non&nbsp;autorisée&nbsp;<br>
envers&nbsp;celle-ci&nbsp;peut&nbsp;être&nbsp;illégale&nbsp;et&nbsp;est&nbsp;strictement&nbsp;interdite.</td></tr></table></BODY>
</HTML>