<DIV>I debug the error by mpich2-1.2.1p1 and mpd.</DIV>
<DIV>It is very odd just because some nodes set DNS address.</DIV>
<DIV>&nbsp;</DIV>
<DIV>When I unset DNS ,It works. Thank you for replying.</DIV>
<DIV>&nbsp;</DIV>
<DIV><includetail>
<DIV>&nbsp;</DIV>
<DIV>&nbsp;</DIV>
<DIV style="COLOR: #000">
<DIV style="PADDING-RIGHT: 0px; PADDING-LEFT: 0px; FONT-SIZE: 12px; PADDING-BOTTOM: 2px; PADDING-TOP: 2px; FONT-FAMILY: Arial Narrow">------------------&nbsp;原始邮件&nbsp;------------------</DIV>
<DIV style="PADDING-RIGHT: 8px; PADDING-LEFT: 8px; FONT-SIZE: 12px; BACKGROUND: #efefef; PADDING-BOTTOM: 8px; PADDING-TOP: 8px">
<DIV id=menu_sender><B>发件人:</B>&nbsp;"Pavan Balaji"&lt;balaji@mcs.anl.gov&gt;;</DIV>
<DIV><B>发送时间:</B>&nbsp;2011年7月26日(星期二) 晚上9:35</DIV>
<DIV><B>收件人:</B>&nbsp;"mpich-discuss"&lt;mpich-discuss@mcs.anl.gov&gt;; <WBR></DIV>
<DIV><B>抄送:</B>&nbsp;"游手好闲"&lt;66152764@qq.com&gt;; <WBR></DIV>
<DIV><B>主题:</B>&nbsp;Re: [mpich-discuss] Fatal error in PMPI_Bcast: Other MPI error, errorstack:</DIV></DIV>
<DIV>&nbsp;</DIV><BR>Did you do the checks listed on this FAQ entry?<BR><BR>http://wiki.mcs.anl.gov/mpich2/index.php/Frequently_Asked_Questions#Q:_My_MPI_program_aborts_with_an_error_saying_it_cannot_communicate_with_other_processes<BR><BR>&nbsp; -- Pavan<BR><BR>On 07/26/2011 01:55 AM, 游手好闲 wrote:<BR>&gt; Hi ,<BR>&gt; My hosts:<BR>&gt; hksbs-s13.com:8<BR>&gt; hksbs-s11.com:8<BR>&gt; When i run in one node,it is ok.<BR>&gt; [root@hksbs-s13 examples_collchk]# mpiexec -f hosts -n 8 ./time_bcast_nochk<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 0 = 0.000005<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 1 = 0.000002<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 2 = 0.000003<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 3 = 0.000002<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 4 = 0.000004<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 5 = 0.000002<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 6 = 0.000003<BR>&gt; time taken by 1X1 MPI_Bcast() at rank 7 = 0.000002<BR>&gt; but when i connect to other node, it failed<BR>&gt; [root@hksbs-s13 examples_logging]# mpiexec -f hosts -n 9 ./srtest<BR>&gt; Fatal error in PMPI_Bcast: Other MPI error, error stack:<BR>&gt; PMPI_Bcast(1478)......................: MPI_Bcast(buf=0x16fc2aa8,<BR>&gt; count=1, MPI_INT, root=0, MPI_COMM_WORLD) failed<BR>&gt; MPIR_Bcast_impl(1321).................:<BR>&gt; MPIR_Bcast_intra(1119)................:<BR>&gt; MPIR_Bcast_scatter_ring_allgather(961):<BR>&gt; MPIR_Bcast_binomial(213)..............: Failure during collective<BR>&gt; MPIR_Bcast_scatter_ring_allgather(952):<BR>&gt; MPIR_Bcast_binomial(189)..............:<BR>&gt; MPIC_Send(63).........................:<BR>&gt; MPIDI_EagerContigShortSend(262).......: failure occurred while<BR>&gt; attempting to send an eager message<BR>&gt; MPIDI_CH3_iStartMsg(36)...............: Communication error with rank 8<BR>&gt; when i ssh the other node, for example<BR>&gt;<BR>&gt; [root@hksbs-s13 examples_logging]# ssh hksbs-s11.com<BR>&gt; Last login: Tue Jul 26 15:45:22 2011 from 10.33.15.233<BR>&gt; [root@hksbs-s11 ~]#<BR>&gt; it works.<BR>&gt; How can check the reason?<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt;<BR>&gt; _______________________________________________<BR>&gt; mpich-discuss mailing list<BR>&gt; mpich-discuss@mcs.anl.gov<BR>&gt; https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss<BR><BR>-- <BR>Pavan Balaji<BR>http://www.mcs.anl.gov/~balaji<BR></DIV></includetail></DIV>