<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2658.34">
<TITLE>RE: [MPICH] how to start up mpd conveniently</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>I worked out a process to allow nodes to join an existing ring in our Linux cluster with dual-cpu cluster nodes:</FONT>
</P>

<P><FONT SIZE=2>#!/bin/sh</FONT>
<BR><FONT SIZE=2>headnode=node1</FONT>
<BR><FONT SIZE=2>echo -n $&quot;Joining mpd ring hosted by $headnode: &quot;</FONT>
<BR><FONT SIZE=2>port=`ssh $headnode lsof | grep python2 | grep TCP | grep \* | cut -d: -f2 | cut -d' ' -f1`</FONT>
<BR><FONT SIZE=2>if [ &quot;$port&quot; = &quot;&quot; ]</FONT>
<BR><FONT SIZE=2>then</FONT>
<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <FONT SIZE=2>echo &quot;$headnode is not running the ring, cannot join&quot;</FONT>
<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <FONT SIZE=2>return 1</FONT>
<BR><FONT SIZE=2>else</FONT>
<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <FONT SIZE=2>python2 /usr/local/mpich2/bin/mpd.py -h $headnode -p $port -d -e --ncpus=2</FONT>
<BR><FONT SIZE=2>fi </FONT>
</P>

<P><FONT SIZE=2>-----Original Message-----</FONT>
<BR><FONT SIZE=2>From: owner-mpich-discuss@mcs.anl.gov [<A HREF="mailto:owner-mpich-discuss@mcs.anl.gov">mailto:owner-mpich-discuss@mcs.anl.gov</A>] On Behalf Of Martin Kleinschmidt</FONT>
<BR><FONT SIZE=2>Sent: September 26, 2006 6:09 AM</FONT>
<BR><FONT SIZE=2>To: mpich-discuss@mcs.anl.gov</FONT>
<BR><FONT SIZE=2>Subject: [MPICH] how to start up mpd conveniently</FONT>
</P>
<BR>

<P><FONT SIZE=2>Hi,</FONT>
</P>

<P><FONT SIZE=2>recently, I switched from mpich1 to mpich2 1.4p1.</FONT>
<BR><FONT SIZE=2>so far, everything is runnung quite smoothly, but I'm unsure of how to setup mpd correctly.</FONT>
<BR><FONT SIZE=2>some facts first:</FONT>
<BR><FONT SIZE=2>our cluster consists of 24 dual-processor nodes and one master server, (all are running on fedora core 3) which are all connected by a 100 Mbit network (192.168.101.X, hostnames master, node1, node2, ...) and the 24 nodes are additionally connected via a 1Gbit network (192.168.103.X, hostnames gnode1, gnode2, ...) Of course parallel communication should use the Gbit network.</FONT></P>

<P><FONT SIZE=2>My mpd.hosts:</FONT>
</P>

<P><FONT SIZE=2>gnode1:2 ifhn=gnode1</FONT>
<BR><FONT SIZE=2>gnode2:2 ifhn=gnode2</FONT>
<BR><FONT SIZE=2>gnode3:2 ifhn=gnode3</FONT>
<BR><FONT SIZE=2>[...]</FONT>
</P>

<P><FONT SIZE=2>and I start mpd with</FONT>
</P>

<P><FONT SIZE=2>mpdboot --ifhn=gnode1 -n 24 --rsh=rsh</FONT>
</P>

<P><FONT SIZE=2>on one of the nodes, and do </FONT>
</P>

<P><FONT SIZE=2>mpdtrace -l</FONT>
</P>

<P><FONT SIZE=2>the output is:</FONT>
</P>

<P><FONT SIZE=2>node1_60078 (192.168.103.2)</FONT>
<BR><FONT SIZE=2>node2_50719 (192.168.103.3)</FONT>
<BR><FONT SIZE=2>[...]</FONT>
</P>

<P><FONT SIZE=2>which is a little bit confusing, because it states the wrong hostname (nodeX instead of gnodeX), and the right interface (192.168.103.X, not 192.168.101.X), but speed tests indicate that indeed, the Gbit interface is in use.</FONT></P>

<P><FONT SIZE=2>The mpd on all machines is braught up by the root user executing mpdboot on one of the nodes.</FONT>
</P>

<P><FONT SIZE=2>Now to my question:</FONT>
<BR><FONT SIZE=2>if one of the nodes goes down/has to reboot for whatever reason - how do I integrate it in the ring of still running pmds without affecting the mpds on other nodes?</FONT></P>

<P><FONT SIZE=2>mpdallexit followed by mpdboot is not an option, because there will usually be parallel applications still running on the other nodes.</FONT></P>

<P><FONT SIZE=2>thanks for reading my lengthy post</FONT>
</P>

<P><FONT SIZE=2>&nbsp;&nbsp; ...martin</FONT>
</P>

<br><br><table bgcolor=white style="color:black"><tr><td><br>CONFIDENTIAL&nbsp;AND&nbsp;PRIVILEGED&nbsp;INFORMATION&nbsp;NOTICE<br>
<br>
This&nbsp;e-mail,&nbsp;and&nbsp;any&nbsp;attachments,&nbsp;may&nbsp;contain&nbsp;information&nbsp;that<br>
is&nbsp;confidential,&nbsp;subject&nbsp;to&nbsp;copyright,&nbsp;or&nbsp;exempt&nbsp;from&nbsp;disclosure.<br>
Any&nbsp;unauthorized&nbsp;review,&nbsp;disclosure,&nbsp;retransmission,&nbsp;<br>
dissemination&nbsp;or&nbsp;other&nbsp;use&nbsp;of&nbsp;or&nbsp;reliance&nbsp;on&nbsp;this&nbsp;information&nbsp;<br>
may&nbsp;be&nbsp;unlawful&nbsp;and&nbsp;is&nbsp;strictly&nbsp;prohibited.&nbsp;&nbsp;<br>
<br>
AVIS&nbsp;D&#39;INFORMATION&nbsp;CONFIDENTIELLE&nbsp;ET&nbsp;PRIVILÉGIÉE<br>
<br>
Le&nbsp;présent&nbsp;courriel,&nbsp;et&nbsp;toute&nbsp;pièce&nbsp;jointe,&nbsp;peut&nbsp;contenir&nbsp;de&nbsp;<br>
l&#39;information&nbsp;qui&nbsp;est&nbsp;confidentielle,&nbsp;régie&nbsp;par&nbsp;les&nbsp;droits&nbsp;<br>
d&#39;auteur,&nbsp;ou&nbsp;interdite&nbsp;de&nbsp;divulgation.&nbsp;Tout&nbsp;examen,&nbsp;<br>
divulgation,&nbsp;retransmission,&nbsp;diffusion&nbsp;ou&nbsp;autres&nbsp;utilisations&nbsp;<br>
non&nbsp;autorisées&nbsp;de&nbsp;l&#39;information&nbsp;ou&nbsp;dépendance&nbsp;non&nbsp;autorisée&nbsp;<br>
envers&nbsp;celle-ci&nbsp;peut&nbsp;être&nbsp;illégale&nbsp;et&nbsp;est&nbsp;strictement&nbsp;interdite.</td></tr></table></BODY>
</HTML>