<html><head><style type="text/css"><!-- DIV {margin:0px;} --></style></head><body><div style="font-family:arial, helvetica, sans-serif;font-size:10pt"><div style="color: black; font-family: arial, helvetica, sans-serif; font-size: 10pt; "></div><div><br><font class="Apple-style-span" face="arial, helvetica, sans-serif" size="2">&nbsp;Thanks for your fast reply. The program runs&nbsp;well when I have removed "node10" and increased the number of processes.</font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif" size="2">Now, I don't know where is the problem with "node10". It has the same Linux version, the same configuration and on the same network.&nbsp;</font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif" size="2"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif" size="2">Do you have any ideas ?</font></div><div style="color: black; font-family: arial,
 helvetica, sans-serif; font-size: 10pt; "><br></div><div style="font-family: arial, helvetica, sans-serif; font-size: 10pt; color: black; "><br><div style="font-family:arial, helvetica, sans-serif;font-size:13px"><font size="2" face="Tahoma"><hr size="1"><b><span style="font-weight: bold;">From:</span></b> Pavan Balaji &lt;balaji@mcs.anl.gov&gt;<br><b><span style="font-weight: bold;">To:</span></b> Hisham Adel &lt;hosham2004@yahoo.com&gt;<br><b><span style="font-weight: bold;">Cc:</span></b> MPI &lt;mpich2-dev@mcs.anl.gov&gt;; MPI_questions &lt;mpich-discuss@mcs.anl.gov&gt;<br><b><span style="font-weight: bold;">Sent:</span></b> Tue, December 14, 2010 2:57:35 PM<br><b><span style="font-weight: bold;">Subject:</span></b> Re: Problem with MPI_Bcast<br></font><br><br>My guess is that there is something wrong with node10. Can you try <br>removing node10 in your hostfile and running your test program with more <br>than 20 processes?<br><br>&nbsp; --
 Pavan<br><br>On 12/14/2010 07:53 AM, Hisham Adel wrote:<br>&gt; Hi All,<br>&gt;<br>&gt; I have installed the new MPICH2 version "1.3.1" with this configuration:<br>&gt;<br>&gt; *./configure --without-mpe --disable-f77 --disable-fc *<br>&gt;<br>&gt; After the installation, I started run some old programs I have written<br>&gt; before with MPI....<br>&gt; All the programs I have written before with MPI hang when number of<br>&gt; cores &gt; 20. They hang when there is an*MPI_Bcast* call.<br>&gt;<br>&gt; So, I got the "Hello_world" example and I executed it. It works well.<br>&gt; So, I have modified it and added a simple *MPI_Bcast* call, the program<br>&gt; start to hang when number of cores &gt; 20.<br>&gt;<br>&gt;<br>&gt; I also have tried the new installation with the "*cpi*" example included<br>&gt; in the package and it hangs when the number of nodes &gt; 20.....<br>&gt;<br>&gt;<br>&gt; Do you have any ideas about that ?<br>&gt;<br>&gt;<br>&gt;
 _Here is the "Hello World" example:_<br>&gt;<br>&gt; *#include &lt;stdio.h&gt;*<br>&gt; *#include "mpi.h"*<br>&gt; *#include &lt;string.h&gt;*<br>&gt; *<br>&gt; *<br>&gt; *int main(int argc, char **argv)*<br>&gt; *{*<br>&gt; *int my_rank;*<br>&gt; *int source;*<br>&gt; *int dest;*<br>&gt; *int p,len;*<br>&gt; *int tag = 50;*<br>&gt; *char message [100];*<br>&gt; *char name[MPI_MAX_PROCESSOR_NAME];*<br>&gt; *MPI_Status status;*<br>&gt; *<br>&gt; *<br>&gt; *MPI_Init(&amp;argc, &amp;argv);*<br>&gt; *MPI_Comm_rank(MPI_COMM_WORLD, &amp;my_rank);*<br>&gt; *MPI_Comm_size(MPI_COMM_WORLD, &amp;p);*<br>&gt; *int x=0;*<br>&gt; *if(my_rank==0)*<br>&gt; *{*<br>&gt; *x=923;*<br>&gt; *}*<br>&gt; *MPI_Bcast(&amp;x,1,MPI_INT,0,MPI_COMM_WORLD);*<br>&gt; *printf("\nI %d got %d from node 0\n",my_rank,x);*<br>&gt; *if (my_rank != 0) {*<br>&gt; *MPI_Get_processor_name(name, &amp;len);*<br>&gt; *sprintf(message, "Greetings from process %d, I am %s !", my_rank, name);*<br>&gt;
 *dest = 0;*<br>&gt; *MPI_Send(message, strlen(message)+1, MPI_CHAR, dest, tag,*<br>&gt; *MPI_COMM_WORLD);*<br>&gt; *} else {*<br>&gt; *for (source = 1; source &lt; p; source++) {*<br>&gt; *MPI_Recv(message, 100, MPI_CHAR, source, tag,*<br>&gt; *MPI_COMM_WORLD, &amp;status);*<br>&gt; *printf("%s\n", message);*<br>&gt; *}*<br>&gt; *}*<br>&gt; *MPI_Finalize();*<br>&gt; *}*<br>&gt;<br>&gt; _Here is the error message I got, when I run the "Hello World" Example:_<br>&gt;<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7fff463d2ad4,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt; MPIR_Bcast_intra(990).................:<br>&gt; MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(187)..............:<br>&gt; MPIC_Send(66).........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt;
 MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1830)...........: Communication error with rank 20:<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7fff8c374d84,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt; MPIR_Bcast_intra(990).................:<br>&gt; MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(187)..............:<br>&gt; MPIC_Send(66).........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt; MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1843)...........:<br>&gt; state_commrdy_handler(1674)...........:<br>&gt; MPID_nem_tcp_recv_handler(1653).......: Communication error with rank 16<br>&gt;
 MPID_nem_tcp_recv_handler(1554).......: socket closed<br>&gt; APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)<br>&gt;<br>&gt;<br>&gt; _Here is the error message I got, when I run "cpi" example:_<br>&gt;<br>&gt;<br>&gt; Process 1 of 22 is on node00<br>&gt; Process 0 of 22 is on node00<br>&gt; Process 4 of 22 is on node02<br>&gt; Process 5 of 22 is on node02<br>&gt; Process 6 of 22 is on node03<br>&gt; Process 7 of 22 is on node03<br>&gt; Process 20 of 22 is on node10<br>&gt; Process 21 of 22 is on node10<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7fff44bcfd3c,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt; MPIR_Bcast_intra(990).................:<br>&gt; MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(187)..............:<br>&gt;
 MPIC_Send(66).........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt; MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1843)...........:<br>&gt; state_commrdy_handler(1674)...........:<br>&gt; MPID_nem_tcp_recv_handler(1653).......: Communication error with rank 16<br>&gt; MPID_nem_tcp_recv_handler(1554).......: socket closed<br>&gt; Process 2 of 22 is on node01<br>&gt; Process 3 of 22 is on node01<br>&gt; [proxy:0:2@node02] HYDT_dmxu_poll_wait_for_event<br>&gt; (/home/k/mpich2-1.3.1/src/pm/hydra/tools/demux/demux_poll.c:70): assert<br>&gt; (!(pollfds[i].revents &amp; ~POLLIN &amp; ~POLLOUT &amp; ~POLLHUP)) failed<br>&gt; [proxy:0:2@node02] main<br>&gt; (/home/k/mpich2-1.3.1/src/pm/hydra/pm/pmiserv/pmip.c:225): demux engine<br>&gt; error waiting for event<br>&gt; Process 8 of 22 is on node04<br>&gt; Process 9 of 22 is on node04<br>&gt; Process 18 of 22 is on
 node09<br>&gt; Process 19 of 22 is on node09<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7ffff9d75dec,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt; MPIR_Bcast_intra(990).................:<br>&gt; MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(157)..............:<br>&gt; MPIC_Recv(108)........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt; MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1830)...........: Communication error with rank 0:<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7fff9645255c,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt;
 MPIR_Bcast_intra(990).................:<br>&gt; MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(187)..............:<br>&gt; MPIC_Send(66).........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt; MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1843)...........:<br>&gt; state_commrdy_handler(1674)...........:<br>&gt; MPID_nem_tcp_recv_handler(1653).......: Communication error with rank 0<br>&gt; MPID_nem_tcp_recv_handler(1554).......: socket closed<br>&gt; Process 16 of 22 is on node08<br>&gt; Process 17 of 22 is on node08<br>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<br>&gt; PMPI_Bcast(1306)......................: MPI_Bcast(buf=0x7fff02102e6c,<br>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<br>&gt; MPIR_Bcast_impl(1150).................:<br>&gt; MPIR_Bcast_intra(990).................:<br>&gt;
 MPIR_Bcast_scatter_ring_allgather(840):<br>&gt; MPIR_Bcast_binomial(187)..............:<br>&gt; MPIC_Send(66).........................:<br>&gt; MPIC_Wait(528)........................:<br>&gt; MPIDI_CH3I_Progress(335)..............:<br>&gt; MPID_nem_mpich2_blocking_recv(906)....:<br>&gt; MPID_nem_tcp_connpoll(1830)...........: Communication error with rank 20:<br>&gt; Process 12 of 22 is on node06<br>&gt; Process 13 of 22 is on node06<br>&gt; Process 14 of 22 is on node07<br>&gt; Process 15 of 22 is on node07<br>&gt; [mpiexec@node00] HYDT_bscu_wait_for_completion<br>&gt; (/home/k/mpich2-1.3.1/src/pm/hydra/tools/bootstrap/utils/bscu_wait.c:99): one<br>&gt; of the processes terminated badly; aborting<br>&gt; [mpiexec@node00] HYDT_bsci_wait_for_completion<br>&gt; (/home/k/mpich2-1.3.1/src/pm/hydra/tools/bootstrap/src/bsci_wait.c:18):<br>&gt; bootstrap device returned error waiting for completion<br>&gt; [mpiexec@node00] HYD_pmci_wait_for_completion<br>&gt;
 (/home/k/mpich2-1.3.1/src/pm/hydra/pm/pmiserv/pmiserv_pmci.c:352):<br>&gt; bootstrap server returned error waiting for completion<br>&gt; [mpiexec@node00] main<br>&gt; (/home/k/mpich2-1.3.1/src/pm/hydra/ui/mpich/mpiexec.c:302): process<br>&gt; manager error waiting for completion<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt; _Here is also the running command:_<br>&gt;<br>&gt;&nbsp; &gt;mpiexec -f hosts -n 22 ./mpi-Hello.exe<br>&gt;&nbsp; &gt; mpiexec.hydra -f hosts -n 22 ./mpi-Hello.exe<br>&gt;<br>&gt;<br>&gt; When number of cores is 20, the program executed well.<br>&gt;<br>&gt;<br>&gt;<br>&gt; _Here is also the "hosts" file:_<br>&gt; node00:2<br>&gt; node01:2<br>&gt; node02:2<br>&gt; node03:2<br>&gt; node04:2<br>&gt; node05:2<br>&gt; node06:2<br>&gt; node07:2<br>&gt; node08:2<br>&gt; node09:2<br>&gt; node10:2<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt;<br><br>-- <br>Pavan Balaji<br><a href="http://www.mcs.anl.gov/~balaji"
 target="_blank">http://www.mcs.anl.gov/~balaji</a><br></div></div><div style="position: fixed; color: black; font-family: arial, helvetica, sans-serif; font-size: 10pt; "></div>


</div><br>

      </body></html>