<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2658.34">
<TITLE>Impact of changing recvTimeout</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>I finally found the "timeout" variable in mpdrun.py.</FONT>
</P>

<P><FONT SIZE=2>It's called recvTimeout, and it's normally set to 20 (which turns out to be 20 seconds).</FONT>
</P>

<P><FONT SIZE=2>I found that I had to set it to 45 to reliably run on 54 cpus, and 110 to reliably run on 122 cpus.</FONT>
</P>

<P><FONT SIZE=2>Is there anything "wrong" with changing this variable?&nbsp; Is there any other impact?</FONT>
</P>

<P><FONT SIZE=2>Simon</FONT>
</P>

<P><FONT SIZE=2>-----Original Message-----</FONT>
<BR><FONT SIZE=2>From: Galton, Simon </FONT>
<BR><FONT SIZE=2>Sent: May 18, 2006 11:08 AM</FONT>
<BR><FONT SIZE=2>To: mpich-discuss@mcs.anl.gov</FONT>
<BR><FONT SIZE=2>Subject: Serious MPICH2 problem with many CPUs</FONT>
</P>

<P><FONT SIZE=2>Folks,</FONT>
</P>

<P><FONT SIZE=2>We're running into a problem when dispatching to &quot;many&quot; CPUs.&nbsp; It seems when we hit ~50 CPUs on our dual-Xeon GigE-connected cluster we start to get the following error, and the job fails:</FONT></P>

<P><FONT SIZE=2>mpdrun_12429 (mpd_recv 386): other error after recv __main__.mpdrunInterrupted :SIGALRM:</FONT>
<BR><FONT SIZE=2>mpdrun failed: no msg recvd from mpd when expecting ack of request</FONT>
<BR><FONT SIZE=2>&nbsp;&nbsp;&nbsp; traceback: [('/usr/local/mpich2/bin/mpdrun.py', '256', 'mpdrun'), ('/usr/local/mpich2/bin/mpdrun.py', '978', '?')]</FONT>
</P>

<P><FONT SIZE=2>It happens 100% of the time at 54 CPUs or more.</FONT>
</P>

<P><FONT SIZE=2>It looks like a setup timeout.&nbsp; Can we increase/fix this?&nbsp; I'd rather not recompile (validation issue)...</FONT>
</P>
<BR>

<P><FONT SIZE=2>Simon Galton</FONT>
</P>

<br><br><table bgcolor=white style="color:black"><tr><td><br>CONFIDENTIAL&nbsp;AND&nbsp;PRIVILEGED&nbsp;INFORMATION&nbsp;NOTICE<br>
<br>
This&nbsp;e-mail,&nbsp;and&nbsp;any&nbsp;attachments,&nbsp;may&nbsp;contain&nbsp;information&nbsp;that<br>
is&nbsp;confidential,&nbsp;subject&nbsp;to&nbsp;copyright,&nbsp;or&nbsp;exempt&nbsp;from&nbsp;disclosure.<br>
Any&nbsp;unauthorized&nbsp;review,&nbsp;disclosure,&nbsp;retransmission,&nbsp;<br>
dissemination&nbsp;or&nbsp;other&nbsp;use&nbsp;of&nbsp;or&nbsp;reliance&nbsp;on&nbsp;this&nbsp;information&nbsp;<br>
may&nbsp;be&nbsp;unlawful&nbsp;and&nbsp;is&nbsp;strictly&nbsp;prohibited.&nbsp;&nbsp;<br>
<br>
AVIS&nbsp;D&#39;INFORMATION&nbsp;CONFIDENTIELLE&nbsp;ET&nbsp;PRIVILÉGIÉE<br>
<br>
Le&nbsp;présent&nbsp;courriel,&nbsp;et&nbsp;toute&nbsp;pièce&nbsp;jointe,&nbsp;peut&nbsp;contenir&nbsp;de&nbsp;<br>
l&#39;information&nbsp;qui&nbsp;est&nbsp;confidentielle,&nbsp;régie&nbsp;par&nbsp;les&nbsp;droits&nbsp;<br>
d&#39;auteur,&nbsp;ou&nbsp;interdite&nbsp;de&nbsp;divulgation.&nbsp;Tout&nbsp;examen,&nbsp;<br>
divulgation,&nbsp;retransmission,&nbsp;diffusion&nbsp;ou&nbsp;autres&nbsp;utilisations&nbsp;<br>
non&nbsp;autorisées&nbsp;de&nbsp;l&#39;information&nbsp;ou&nbsp;dépendance&nbsp;non&nbsp;autorisée&nbsp;<br>
envers&nbsp;celle-ci&nbsp;peut&nbsp;être&nbsp;illégale&nbsp;et&nbsp;est&nbsp;strictement&nbsp;interdite.</td></tr></table></BODY>
</HTML>