I also doubt it is a networking problem. I am trying to how to find it. Anyway, thanks a lot <br><br><div class="gmail_quote">On Fri, May 27, 2011 at 12:46 PM, Dave Goodell <span dir="ltr">&lt;<a href="mailto:goodell@mcs.anl.gov">goodell@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">If your firewall truly is disabled and those /etc/hosts files are accurate, then I don&#39;t know what the problem might be.  It still sounds like a networking problem, but I don&#39;t have any concrete suggestions for what else to check.<br>

<br>
Perhaps others on the list have experienced these sorts of problems before and can offer ideas.<br>
<font color="#888888"><br>
-Dave<br>
</font><div><div></div><div class="h5"><br>
On May 27, 2011, at 11:24 AM CDT, Fujun Liu wrote:<br>
<br>
&gt; I use two hosts: one is query, the other is trigger<br>
&gt;<br>
&gt; (1) about firewall<br>
&gt;<br>
&gt; netlab@query:~$ sudo ufw status<br>
&gt; Status: inactive<br>
&gt;<br>
&gt; netlab@trigger:~$ sudo ufw status<br>
&gt; Status: inactive<br>
&gt;<br>
&gt; Both firewalls are turned off.<br>
&gt;<br>
&gt; (2)about DNS<br>
&gt;<br>
&gt; for query, /etc/hosts is as below:<br>
&gt;<br>
&gt; 127.0.0.1       localhost<br>
&gt; #127.0.1.1      query<br>
&gt;<br>
&gt; xxx.xxx.xxx.42  trigger<br>
&gt; xxx.xxx.xxx.43  query<br>
&gt;<br>
&gt; for trigger, /etc/hosts is as below:<br>
&gt; 127.0.0.1       localhost<br>
&gt; #127.0.1.1      trigger<br>
&gt;<br>
&gt; xxx.xxx.xxx.42  trigger<br>
&gt; xxx.xxx.xxx.43  query<br>
&gt;<br>
&gt; In fact, they are the same<br>
&gt;<br>
&gt; (3) version of MPICH2<br>
&gt;<br>
&gt; mpich2-1.3.2p1, it is from <a href="http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads" target="_blank">http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads</a><br>

&gt; As you can notice, it is called stable version<br>
&gt;<br>
&gt; (4) about configure.<br>
&gt;<br>
&gt; I did nothing about this. I just use the -prefix option. Do I need more about this?<br>
&gt;<br>
&gt; Now hellowworld workds fine on two hosts, cpi works fine on single one host. The problem is probably that the two hosts can&#39;t communicate. So any suggestion?<br>
&gt;<br>
&gt; Best Wishes,<br>
&gt;<br>
&gt; On Fri, May 27, 2011 at 11:55 AM, Dave Goodell &lt;<a href="mailto:goodell@mcs.anl.gov">goodell@mcs.anl.gov</a>&gt; wrote:<br>
&gt; The problem looks like a networking issue, either a firewall or DNS (bad /etc/hosts file?) issue.  Are the firewalls disabled on these machines?  How are the hostnames configured?<br>
&gt;<br>
&gt; What version of MPICH2 is this?  What configure options did you use when you built MPICH2?<br>
&gt;<br>
&gt; -Dave<br>
&gt;<br>
&gt; On May 27, 2011, at 10:49 AM CDT, Fujun Liu wrote:<br>
&gt;<br>
&gt; &gt; The cpi also does not work. There is no error message, but it takes forever:<br>
&gt; &gt;<br>
&gt; &gt; xxxx@query:~/MPI$ mpiexec -n 2 -f machinefile /home/netlab/MPI/mpich2-build/examples/cpi<br>
&gt; &gt; Process 1 of 2 is on query<br>
&gt; &gt; Process 0 of 2 is on trigger<br>
&gt; &gt;<br>
&gt; &gt; I think my two hosts are still trying to communicate to each other. Any suggestions?<br>
&gt; &gt;<br>
&gt; &gt; Best wishes,<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; On Fri, May 27, 2011 at 9:42 AM, Dave Goodell &lt;<a href="mailto:goodell@mcs.anl.gov">goodell@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt; Does the &quot;examples/cpi&quot; program from the MPICH2 build directory work correctly for you when you run it on multiple nodes?<br>
&gt; &gt;<br>
&gt; &gt; -Dave<br>
&gt; &gt;<br>
&gt; &gt; On May 26, 2011, at 5:49 PM CDT, Fujun Liu wrote:<br>
&gt; &gt;<br>
&gt; &gt; &gt; Hi everyone,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; When I try one example from <a href="http://beige.ucs.indiana.edu/I590/node62.html" target="_blank">http://beige.ucs.indiana.edu/I590/node62.html</a>, I got the following error message as below. In the MPI cluster, there are two hosts. If I run the two processes on just one host, everything works fine. But if I run two processes on the two-host cluster, the following error happens. I think the two hosts just can&#39;t send/receive message to each other, but I don&#39;t know how to resolve this.<br>

&gt; &gt; &gt;<br>
&gt; &gt; &gt; Thanks in advance!<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; xxxx@query:~/MPI$ mpiexec -n 2 -f machinefile ./GreetMaster<br>
&gt; &gt; &gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>
&gt; &gt; &gt; PMPI_Bcast(1430).......................: MPI_Bcast(buf=0x7fff13114cb0, count=8192, MPI_CHAR, root=0, MPI_COMM_WORLD) failed<br>
&gt; &gt; &gt; MPIR_Bcast_impl(1273)..................:<br>
&gt; &gt; &gt; MPIR_Bcast_intra(1107).................:<br>
&gt; &gt; &gt; MPIR_Bcast_binomial(143)...............:<br>
&gt; &gt; &gt; MPIC_Recv(110).........................:<br>
&gt; &gt; &gt; MPIC_Wait(540).........................:<br>
&gt; &gt; &gt; MPIDI_CH3I_Progress(353)...............:<br>
&gt; &gt; &gt; MPID_nem_mpich2_blocking_recv(905).....:<br>
&gt; &gt; &gt; MPID_nem_tcp_connpoll(1823)............:<br>
&gt; &gt; &gt; state_commrdy_handler(1665)............:<br>
&gt; &gt; &gt; MPID_nem_tcp_recv_handler(1559)........:<br>
&gt; &gt; &gt; MPID_nem_handle_pkt(587)...............:<br>
&gt; &gt; &gt; MPIDI_CH3_PktHandler_EagerSend(632)....: failure occurred while posting a receive for message data (MPIDI_CH3_PKT_EAGER_SEND)<br>
&gt; &gt; &gt; MPIDI_CH3U_Receive_data_unexpected(251): Out of memory (unable to allocate -1216907051 bytes)<br>
&gt; &gt; &gt; [mpiexec@query] ONE OF THE PROCESSES TERMINATED BADLY: CLEANING UP<br>
&gt; &gt; &gt; APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; --<br>
&gt; &gt; &gt; Fujun Liu<br>
&gt; &gt; &gt; Department of Computer Science, University of Kentucky, 2010.08-<br>
&gt; &gt; &gt; <a href="mailto:fujun.liu@uky.edu">fujun.liu@uky.edu</a>, <a href="tel:%28859%29229-3659" value="+18592293659">(859)229-3659</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; _______________________________________________<br>
&gt; &gt; &gt; mpich-discuss mailing list<br>
&gt; &gt; &gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list<br>
&gt; &gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Fujun Liu<br>
&gt; &gt; Department of Computer Science, University of Kentucky, 2010.08-<br>
&gt; &gt; <a href="mailto:fujun.liu@uky.edu">fujun.liu@uky.edu</a>, <a href="tel:%28859%29229-3659" value="+18592293659">(859)229-3659</a><br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list<br>
&gt; &gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Fujun Liu<br>
&gt; Department of Computer Science, University of Kentucky, 2010.08-<br>
&gt; <a href="mailto:fujun.liu@uky.edu">fujun.liu@uky.edu</a>, <a href="tel:%28859%29229-3659" value="+18592293659">(859)229-3659</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
_______________________________________________<br>
mpich-discuss mailing list<br>
<a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div>Fujun Liu<br>Department of Computer Science, University of Kentucky, 2010.08-<br></div>
<div><a href="mailto:fujun.liu@uky.edu" target="_blank">fujun.liu@uky.edu</a>, (859)229-3659</div>
<div><br> </div><br>