<div>Hi Rajeev, I think so, since each node has 24 cores, may the communication rate if not enough, thanks a lot,</div>
<div>let me try the latest first.<br><br></div>
<div class="gmail_quote">2011/1/8 Rajeev Thakur <span dir="ltr">&lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt;</span><br>
<blockquote style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" class="gmail_quote">Could be firewall or networking issues between the two machines.<br><br>Try using the latest version of MPICH2 that uses the Hydra process manager by default and does not need mpdboot.<br>
<br>Rajeev<br>
<div>
<div></div>
<div class="h5"><br>On Jan 6, 2011, at 1:38 AM, chenjie gu wrote:<br><br>&gt; Hi all, I have a cluster with two nodes, when I boot the mpd on the single node, the software can run well,<br>&gt; but when i try to link two nodes together to do the calculation, problems as follow moes, I guess it will be<br>
&gt; a  stack proble, though I alread set the stack to unlimited. Any suggestion will welcome,<br>&gt;<br>&gt; Fatal error in MPI_Waitall: Other MPI error, error stack:<br>&gt; MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffeeca46a0, status_array=0x7fffeeca4760) failed<br>
&gt; MPIDI_CH3I_Progress(150)..........:<br>&gt; MPID_nem_mpich2_blocking_recv(948):<br>&gt; MPID_nem_tcp_connpoll(1709).......: Communication error<br>&gt; rank 23 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 23: killed by signal 9<br>&gt; Fatal error in MPI_Waitall: Other MPI error, error stack:<br>&gt; MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffed7f23a0, status_array=0x7fffed7f2460) failed<br>
&gt; MPIDI_CH3I_Progress(150)..........:<br>&gt; MPID_nem_mpich2_blocking_recv(948):<br>&gt; MPID_nem_tcp_connpoll(1709).......: Communication error<br>&gt; rank 21 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 21: killed by signal 9<br>&gt; Fatal error in MPI_Waitall: Other MPI error, error stack:<br>&gt; MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffce96e120, status_array=0x7fffce96e1e0) failed<br>
&gt; MPIDI_CH3I_Progress(150)..........:<br>&gt; MPID_nem_mpich2_blocking_recv(948):<br>&gt; MPID_nem_tcp_connpoll(1709).......: Communication error<br>&gt; rank 19 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 19: killed by signal 9<br>&gt; rank 17 in job 1  node0_55860   caused collective abort of all ranks<br>&gt;   exit status of rank 17: killed by signal 9<br>&gt; rank 15 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 15: killed by signal 9<br>&gt; rank 13 in job 1  node0_55860   caused collective abort of all ranks<br>&gt;   exit status of rank 13: killed by signal 9<br>&gt; rank 11 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 11: killed by signal 9<br>&gt; rank 9 in job 1  node0_55860   caused collective abort of all ranks<br>&gt;   exit status of rank 9: killed by signal 11<br>&gt; rank 7 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 7: killed by signal 9<br>&gt; rank 5 in job 1  node0_55860   caused collective abort of all ranks<br>&gt;   exit status of rank 5: killed by signal 9<br>&gt; rank 1 in job 1  node0_55860   caused collective abort of all ranks<br>
&gt;   exit status of rank 1: killed by signal 9<br>&gt;<br>&gt; --<br>&gt; Yours Regards,<br>&gt; chenjie GU<br>&gt;<br></div></div>&gt; _______________________________________________<br>&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>_______________________________________________<br>mpich-discuss mailing list<br><a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br><a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>Yours Regards,<br>chenjie GU<br>EEE,Nanyang Technoligical University<br>