Hi,<br>Thanks for your reply.<br>I am using mpich2-1.4.1p1 with its default process manager(hydra).<br>I disabled firewall on all my machines in cluster by using<br>#service iptables stop<br>#chkconfig iptables off<br><br>
I created file names hosts in my home directory of all the cluster machines i.e /root with<br>beowulf.master<br>beowulf.node1<br>beowulf.node2<br>beowulf.node3<br>beowulf.node4<br><br>Also in /etc/hosts of all machines I added there ip addresses and respective names.<br>
<br>I am able to login to any machine from any other without password.<br><br>I also set environment for Hydra process manager by adding<br>export HYDRA_FILE=/root/hosts<br>in .bashrc file in /root<br><br>Am I missing something??<br>
Thanks...<br><br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
------------------------------<br>
<br>
Message: 6<br>
Date: Tue, 1 May 2012 12:27:26 +0800<br>
From: Ju JiaJia &lt;<a href="mailto:jujj603@gmail.com">jujj603@gmail.com</a>&gt;<br>
Subject: Re: [mpich-discuss] Not able to run MPI program parallely...<br>
To: <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
Message-ID:<br>
        &lt;CAON5g3S1xnVC=<a href="mailto:5FJS0dsr0uAYqhoffbHM%2BBMWyz3yTvz5fhmZw@mail.gmail.com">5FJS0dsr0uAYqhoffbHM+BMWyz3yTvz5fhmZw@mail.gmail.com</a>&gt;<br>
Content-Type: text/plain; charset=&quot;iso-8859-1&quot;<br>
<br>
Which Process Manager are you using ? If you are using mpd, make sure mpd<br>
is running and  all the nodes are in the ring. Use mpdtrace -l to check.<br>
<br>
On Tue, May 1, 2012 at 5:27 AM, Albert Spade &lt;<a href="mailto:albert.spade@gmail.com">albert.spade@gmail.com</a>&gt; wrote:<br>
<br>
&gt; Hi I want to run my program parallely on the my small cluster. It  has 5<br>
&gt; nodes one master and 4 compute nodes.<br>
&gt; When I run the below program on invidual machine it works fine and give<br>
&gt; proper output. But if I run it on cluster it gives below error.<br>
&gt; I disabled firewall.<br>
&gt;<br>
&gt; OUTPUT....<br>
&gt; -----------------<br>
&gt; [root@beowulf ~]# mpiexec -n 4 ./cpi<br>
&gt; Process 2 of 4 is on beowulf.master<br>
&gt; Process 3 of 4 is on beowulf.master<br>
&gt; Process 1 of 4 is on beowulf.master<br>
&gt; Process 0 of 4 is on beowulf.master<br>
&gt; Fatal error in PMPI_Reduce: Other MPI error, error stack:<br>
&gt; PMPI_Reduce(1270)...............: MPI_Reduce(sbuf=0xbfa66ba8,<br>
&gt; rbuf=0xbfa66ba0, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD)<br>
&gt; failed<br>
&gt; MPIR_Reduce_impl(1087)..........:<br>
&gt; MPIR_Reduce_intra(895)..........:<br>
&gt; MPIR_Reduce_binomial(144).......:<br>
&gt; MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 2<br>
&gt; MPIR_Reduce_binomial(144).......:<br>
&gt; MPIDI_CH3U_Recvq_FDU_or_AEP(380): Communication error with rank 1<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; To manage subscription options or unsubscribe:<br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt;<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120501/c2e1898f/attachment.htm" target="_blank">http://lists.mcs.anl.gov/pipermail/mpich-discuss/attachments/20120501/c2e1898f/attachment.htm</a>&gt;<br>

<br>
------------------------------<br>
<br>
*********************************************<br>
</blockquote></div><br>