<div dir="ltr">Hi all,<br><br>I&#39;m using MPICH2 in Windows.<br>I can run my programme without errors if I don&#39;t use the machine in which I execute the command (Main node).<br><br>mpiexec -channel ssm -n 3 -exitcodes -machinefile &quot;c:\Program Files\MPICH2\bin\hosts.txt&quot; -wdir //<a href="http://10.8.102.27/ClusterShared">10.8.102.27/ClusterShared</a> GBMTest<br>
<br>If I use the main node also to execute one of the 3 processes, then it gives the error below. But it prints the output I wanted too. then it gives the error.<br>I wanted to know whether this is an issue with my programme(GBMTest) or I cant use the main node to run the process.<br>
In the machinefile I have included three machines. <br><a href="http://10.8.102.28">10.8.102.28</a><br><a href="http://10.8.102.30">10.8.102.30</a><br><a href="http://10.8.102.27">10.8.102.27</a> (main node)<br><br>This works fine if I remove the main node and add another node instead.<br>
<br>this is the error.<br>////////////////////////////////////////////////////////////////////////////////////<br>Fatal error in MPI_Finalize: Other MPI error, error stack:<br>MPI_Finalize(255)............: MPI_Finalize failed<br>
MPI_Finalize(154)............:<br>MPID_Finalize(94)............:<br>MPI_Barrier(406).............: MPI_Barrier(comm=0x44000002) failed<br>MPIR_Barrier(77).............:<br>MPIC_Sendrecv(120)...........:<br>MPID_Isend(103)..............: failure occurred while attempting to send an eage<br>
r message<br>MPIDI_CH3_iSend(168).........:<br>MPIDI_CH3I_Sock_connect(1191): [ch3:sock] rank 1 unable to connect to rank 2 usi<br>ng business card &lt;port=1179 description=cse-365237834578 ifname=<a href="http://10.8.102.27">10.8.102.27</a> shm_<br>
host=cse-365237834578 shm_queue=376D692D-A683-4917-BF58-13BD35D071E8 shm_pid=284<br>0 &gt;<br>MPIDU_Sock_post_connect(1228): unable to connect to cse-365237834578 on port 117<br>9, exhausted all endpoints (errno -1)<br>MPIDU_Sock_post_connect(1244): gethostbyname failed, The requested name is valid<br>
&nbsp;and was found in the database, but it does not have the correct associated data<br>&nbsp;being resolved for. (errno 11004)<br>job aborted:<br>rank: node: exit code[: error message]<br>0: <a href="http://10.8.102.28">10.8.102.28</a>: 1<br>
1: <a href="http://10.8.102.30">10.8.102.30</a>: 1: Fatal error in MPI_Finalize: Other MPI error, error stack:<br>MPI_Finalize(255)............: MPI_Finalize failed<br>MPI_Finalize(154)............:<br>MPID_Finalize(94)............:<br>
MPI_Barrier(406).............: MPI_Barrier(comm=0x44000002) failed<br>MPIR_Barrier(77).............:<br>MPIC_Sendrecv(120)...........:<br>MPID_Isend(103)..............: failure occurred while attempting to send an eage<br>
r message<br>MPIDI_CH3_iSend(168).........:<br>MPIDI_CH3I_Sock_connect(1191): [ch3:sock] rank 1 unable to connect to rank 2 usi<br>ng business card &lt;port=1179 description=cse-365237834578 ifname=<a href="http://10.8.102.27">10.8.102.27</a> shm_<br>
host=cse-365237834578 shm_queue=376D692D-A683-4917-BF58-13BD35D071E8 shm_pid=284<br>0 &gt;<br>MPIDU_Sock_post_connect(1228): unable to connect to cse-365237834578 on port 117<br>9, exhausted all endpoints (errno -1)<br>MPIDU_Sock_post_connect(1244): gethostbyname failed, The requested name is valid<br>
&nbsp;and was found in the database, but it does not have the correct associated data<br>&nbsp;being resolved for. (errno 11004)<br>2: <a href="http://10.8.102.27">10.8.102.27</a>: 1<br></div>