<div>Hi all, I have a cluster with two nodes, when I boot the mpd on the single node, the software can run well,</div>
<div>but when i try to link two nodes together to do the calculation, problems as follow moes, I guess it will be </div>
<div>a  stack proble, though I alread set the stack to unlimited. Any suggestion will welcome,<br clear="all"></div>
<div> </div>
<div>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffeeca46a0, status_array=0x7fffeeca4760) failed<br>MPIDI_CH3I_Progress(150)..........: <br>
MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>rank 23 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 23: killed by signal 9 <br>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>
MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffed7f23a0, status_array=0x7fffed7f2460) failed<br>MPIDI_CH3I_Progress(150)..........: <br>MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>
rank 21 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 21: killed by signal 9 <br>Fatal error in MPI_Waitall: Other MPI error, error stack:<br>MPI_Waitall(261)..................: MPI_Waitall(count=46, req_array=0x7fffce96e120, status_array=0x7fffce96e1e0) failed<br>
MPIDI_CH3I_Progress(150)..........: <br>MPID_nem_mpich2_blocking_recv(948): <br>MPID_nem_tcp_connpoll(1709).......: Communication error<br>rank 19 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 19: killed by signal 9 <br>
rank 17 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 17: killed by signal 9 <br>rank 15 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 15: killed by signal 9 <br>
rank 13 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 13: killed by signal 9 <br>rank 11 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 11: killed by signal 9 <br>
rank 9 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 9: killed by signal 11 <br>rank 7 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 7: killed by signal 9 <br>
rank 5 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 5: killed by signal 9 <br>rank 1 in job 1  node0_55860   caused collective abort of all ranks<br>  exit status of rank 1: killed by signal 9 </div>

<div><br>-- <br>Yours Regards,<br>chenjie GU<br><br></div>