<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Verdana
}
--></style>
</head>
<body class='hmmessage'>
Hello,<br>I was wondering if someone can help me.<br><br>I have 3 quad-core computers that I would like to construct a 12-core cluster out of.<br>At the moment, mvapich2 is installed on each of the machines, and we can successfully run 4-node simulations on each of the machines.<br>What we want to do is hook these machines together, to run 1 simulation on 12 processors.<br><br>I am having trouble doing this however. I have followed the quick-setup guide in the installguide PDF (page 31 onwards):<br><br>mpdcheck -s (checking communication between 2 of the computers) - OK<br><br>The 3 computers are called Quad, November and December.<br>When I run:<br>mpd &amp;<br>mpiexec -n 1 /bin/hostname<br><br>November hangs, but December and Quad are fine. So my first question is, why does this hang? Running simply "/bin/hostname" on all the computers does work. After hanging for a while, November does eventually produce the following error messages, although I don't know what this means:<br><br>november_mpdman_0: mpd_uncaught_except_tb handling:<br>&nbsp; &lt;class 'socket.error'&gt;: [Errno 110] Connection timed out<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpdlib.py&nbsp; 397&nbsp; connect<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; raise socket.error, errinfo<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpdman.py&nbsp; 235&nbsp; run<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.conSock.connect((self.conIfhn,self.conPort))<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 1430&nbsp; launch_mpdman_via_fork<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mpdman.run()<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 1331&nbsp; run_one_cli<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (manPid,toManSock) = self.launch_mpdman_via_fork(msg,man_env)<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 1205&nbsp; do_mpdrun<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.run_one_cli(lorank,msg)<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 618&nbsp; handle_console_input<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.do_mpdrun(msg)<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpdlib.py&nbsp; 762&nbsp; handle_active_streams<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; handler(stream,*args)<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 290&nbsp; runmainloop<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; rv = self.streamHandler.handle_active_streams(timeout=8.0)<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 259&nbsp; run<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.runmainloop()<br>&nbsp;&nbsp;&nbsp; /usr/local/mpich/bin/mpd&nbsp; 1492&nbsp; &lt;module&gt;<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mpd.run()<br>&nbsp;&nbsp;&nbsp; mpd_cli_app=/bin/hostname<br>&nbsp;&nbsp;&nbsp; cwd=/home/me<br><br>and when I eventually ctrl-C, I get "mpiexec: failed to obtain sock from manager". I'm assuming it's not referring to the woolly variety.<br><br>Secondly, continuing with Quad and December which don't hang, when I try to launch the simulation software using:<br><br>mpiexec -n 8 software.ex &amp;<br><br>I get the following error for 4 out of the 8 nodes (each machine having 4 nodes, with 2 machines):<br>MPIR_Init_thread(310): Initialization failed<br>MPID_Init(113).......: channel initialization failed<br>MPIDI_CH3_Init(244)..: process not on the same host (quad != december)Fatal error in MPI_Init: O<br>ther MPI error, error stack:<br><br>I've tried looking on the internet for ways to launch with multiple hosts, but nothing seems to work. So my 2nd question is, how can I get this working?<br><br>Any help is greatly appreciated, since I really need to get this working asap.<br><br>Thanks!<br><br>James                                               <br /><hr />Get a new e-mail account with Hotmail - Free. <a href='http://clk.atdmt.com/UKM/go/197222280/direct/01/' target='_new'>Sign-up now.</a></body>
</html>