I think maybe you need to attempt to code your code in the nonblocking communiction. <br><div></div><br>At 2011-01-06 15:38:24£¬"chenjie&nbsp;gu"&nbsp;&lt;archygu@gmail.com&gt; wrote:<br> <blockquote id="isReplyContent" style="padding-left: 1ex; margin: 0px 0px 0px 0.8ex; border-left: 1px solid rgb(204, 204, 204);"><div>Hi all, I have a cluster with two nodes, when I boot the mpd on the single node, the software can run well,</div>
<div>but when i try to link two nodes together to do the calculation, problems as follow moes, I guess it will be </div>
<div>a&nbsp; stack proble, though I alread set the stack to unlimited. Any suggestion will welcome,<br clear="all"></div>
<div>&nbsp;</div>
<div>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffeeca46a0, status_array=0x7fffeeca4760) failed<br>MPIDI_CH3I_Progress(150)..........: <br>
MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>rank 23 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 23: killed by signal 9 <br>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>
MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffed7f23a0, status_array=0x7fffed7f2460) failed<br>MPIDI_CH3I_Progress(150)..........: <br>MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>
rank 21 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 21: killed by signal 9 <br>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffce96e120, status_array=0x7fffce96e1e0) failed<br>
MPIDI_CH3I_Progress(150)..........: <br>MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>rank 19 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 19: killed by signal 9 <br>
rank 17 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 17: killed by signal 9 <br>rank 15 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 15: killed by signal 9 <br>
rank 13 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 13: killed by signal 9 <br>rank 11 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 11: killed by signal 9 <br>
rank 9 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 9: killed by signal 11 <br>rank 7 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 7: killed by signal 9 <br>
rank 5 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 5: killed by signal 9 <br>rank 1 in job 1&nbsp; node0_55860&nbsp;&nbsp; caused collective abort of all ranks<br>&nbsp; exit status of rank 1: killed by signal 9 </div>

<div><br>-- <br>Yours Regards,<br>chenjie GU<br><br></div>
</blockquote><br><br><span title="neteasefooter"><span id="netease_mail_footer"></span></span>