Hi Pavan,<br>Thanks for your timely reply.<br><br>I have copied the output which I see if i am using the hosts manually and also after setting HYDRA_HOST_FILE.<br>Whether I am doing some mistake in setting HYDRA_HOST_FILE..<br>
<br>Output<br>----------<br><br>[root@beowulf ~]# vi .bashrc<br>[root@beowulf ~]# mpiexec -n 4 /opt/mpich2-1.4.1p1/examples/./cpi<br>Process 0 of 4 is on beowulf.master<br>Process 3 of 4 is on beowulf.master<br>Process 1 of 4 is on beowulf.master<br>
Process 2 of 4 is on beowulf.master<br>pi is approximately 3.1415926544231239, Error is 0.0000000008333307<br>wall clock time = 0.000202<br>[root@beowulf ~]# mpiexec -f hosts -n 4 /opt/mpich2-1.4.1p1/examples/./cpi<br>Process 0 of 4 is on beowulf.master<br>
Process 3 of 4 is on beowulf.master<br>Process 1 of 4 is on beowulf.master<br>Process 2 of 4 is on beowulf.master<br>Fatal error in PMPI_Reduce: Other MPI error, error stack:<br>PMPI_Reduce(1270)...............: MPI_Reduce(sbuf=0xbff0fd08, rbuf=0xbff0fd00, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed<br>
MPIR_Reduce_impl(1087)..........:<br>MPIR_Reduce_intra(895)..........:<br>MPIR_Reduce_binomial(144).......:<br>MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 2<br>MPIR_Reduce_binomial(144).......:<br>MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 1<br>
^CCtrl-C caught... cleaning up processes<br>[root@beowulf ~]#<br><br>-------------------------------------------<br><br>This is output after setting HYDRA_HOST_FILE<br><br>[root@beowulf ~]# mpiexec -n 4 /opt/mpich2-1.4.1p1/examples/./cpi<br>
Process 2 of 4 is on beowulf.master<br>Process 3 of 4 is on beowulf.master<br>Process 1 of 4 is on beowulf.master<br>Process 0 of 4 is on beowulf.master<br>Fatal error in PMPI_Reduce: Other MPI error, error stack:<br>PMPI_Reduce(1270)...............: MPI_Reduce(sbuf=0xbfd69028, rbuf=0xbfd69020, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed<br>
MPIR_Reduce_impl(1087)..........:<br>MPIR_Reduce_intra(895)..........:<br>MPIR_Reduce_binomial(144).......:<br>MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 2<br>MPIR_Reduce_binomial(144).......:<br>MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 1<br>
^CCtrl-C caught... cleaning up processes<br>[root@beowulf ~]#<br><br><br><br><div class="gmail_quote">On Tue, May 1, 2012 at 7:23 PM, Pavan Balaji <span dir="ltr">&lt;<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
In the previous error message you sent, all processes were started on beowulf.master as well, which means you didn&#39;t set the HYDRA_HOST_FILE correctly.  What exactly is the error that you are seeing *after* setting the HYDRA_HOST_FILE variable?<br>

<br>
 -- Pavan<div class="im"><br>
<br>
On 05/01/2012 08:51 AM, Albert Spade wrote:<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">
Yes it is HYDRA_HOST_FILE sorry for typo...<br>
Also when I run ./cpi without setting hostfile, on single machine it<br>
works fine.<br>
  Here is its sample output:<br>
<br>
[root@beowulf ~]# mpiexec -n 4 /opt/mpich2-1.4.1p1/examples/.<u></u>/cpi<br>
Process 0 of 4 is on beowulf.master<br>
Process 3 of 4 is on beowulf.master<br>
Process 2 of 4 is on beowulf.master<br>
Process 1 of 4 is on beowulf.master<br>
pi is approximately 3.1415926544231239, Error is 0.0000000008333307<br>
wall clock time = 0.000333<br>
[root@beowulf ~]#<br>
<br>
On Tue, May 1, 2012 at 7:13 PM, Pavan Balaji &lt;<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a><br></div><div class="im">
&lt;mailto:<a href="mailto:balaji@mcs.anl.gov" target="_blank">balaji@mcs.anl.gov</a>&gt;&gt; wrote:<br>
<br>
<br>
    On 05/01/2012 05:30 AM, Albert Spade wrote:<br>
<br>
        I also set environment for Hydra process manager by adding<br>
        export HYDRA_FILE=/root/hosts<br>
        in .bashrc file in /root<br>
<br>
<br>
    Did you mean to set HYDRA_HOST_FILE?<br>
<br>
    Can you try running ./cpi without setting the HYDRA_HOST_FILE first?<br>
<br>
      -- Pavan<br>
<br>
    --<br>
    Pavan Balaji<br></div>
    <a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/~balaji</a> &lt;<a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/%<u></u>7Ebalaji</a>&gt;<br>
<br>
<br>
</blockquote><div class="HOEnZb"><div class="h5">
<br>
-- <br>
Pavan Balaji<br>
<a href="http://www.mcs.anl.gov/%7Ebalaji" target="_blank">http://www.mcs.anl.gov/~balaji</a><br>
</div></div></blockquote></div><br>