Thanks! Rajeev for the quick feedback. I really appreciate it.  I have used but never never written/modified MPI code. I am assuming that I need to use the nonblocking routine MPI_Isend within the if (master) part of the sample code. Is that right?<br>
<br>Best regards,<br>Sarika<br><br><br><div class="gmail_quote">On Mon, Feb 13, 2012 at 1:45 PM, Rajeev Thakur <span dir="ltr">&lt;<a href="mailto:thakur@mcs.anl.gov">thakur@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
This will happen if the master is also sending to itself, and calls MPI_Send(to itself) before MPI_Recv(from itself). You need to either use a nonblocking send or post a nonblocking receive before the blocking send.<br>
<br>
Rajeev<br>
<div><div class="h5"><br>
<br>
On Feb 13, 2012, at 3:28 PM, Sarika K wrote:<br>
<br>
&gt; Dear MPICH-discuss group:<br>
&gt;<br>
&gt; My work involves working with Fortran Code using MPICH for parallelization. But I have a very limited experience with the details of MPICH implementation. (I have always treated the MPICh part of the code as a black box).<br>

&gt;<br>
&gt; I am now working on porting the code across different machine configurations. My modeling code works fine on some machines/servers. But it also generates random MPI deadlock errors when running the simulations across other machines/servers.<br>

&gt;<br>
&gt; The error message is below.<br>
&gt; &quot;Fatal error in MPI_Send: Other MPI error, error stack:<br>
&gt; MPI_Send(174): MPI_Send(buf=0x7f4d9b375010, count=1, dtype=USER&lt;vector&gt;, dest=1, tag=10001, MPI_COMM_WORLD) failed<br>
&gt; MPID_Send(53): DEADLOCK: attempting to send a message to the local process without a prior matching receive&quot;<br>
&gt;<br>
&gt; I searched this list/other resources for this error code and strongly believe that there is a bug in the model MPI implementation code which remains dormant in some environments and works fine due to the internal buffering threshold dependance.<br>

&gt;<br>
&gt; I am not sure if this is sufficient information, but attached below sample subroutine (there are many inside the code) which generates the deadlock error.<br>
&gt;<br>
&gt; I would really appreciate any help/pointers from the group to fix this error in our code.<br>
&gt;<br>
&gt; Thanks in advance for your time and assistance,<br>
&gt; Sarika<br>
&gt;<br>
&gt; c-----------------------------------------------------------------------------------------------------------------------------<br>
&gt;       subroutine int_distrib1(iend)<br>
&gt; c-----------------------<br>
&gt; c  Master distributes another bunch of integers to Workers<br>
&gt; c-----------------------------------------------------------------------------------------------------------------------------<br>
&gt; c<br>
&gt;       use ParallelDataMap<br>
&gt;       use CommDataTypes<br>
&gt;       implicit none<br>
&gt;       include &#39;mpif.h&#39;<br>
&gt; c<br>
&gt;       include &#39;aqmax.param&#39;<br>
&gt;       include &#39;aqindx.cmm&#39;<br>
&gt; c<br>
&gt;       integer :: iend<br>
&gt;       integer, parameter ::  Nbuf=35<br>
&gt;       integer ::  i, j, k, buf(Nbuf), Ierr, status(MPI_STATUS_SIZE)<br>
&gt; c<br>
&gt;       if (Master) then<br>
&gt; ! arguments<br>
&gt;     buf(1) = iend<br>
&gt; !  /aqspid/ in aqindx.cmm stuff<br>
&gt;     buf(2) = iair<br>
&gt;     buf(3) = ih2o<br>
&gt;     buf(4) = io2<br>
&gt;     buf(5) = ico<br>
&gt;     buf(6) = ino2<br>
&gt;     buf(7) = iho2<br>
&gt;     buf(8) = iso2<br>
&gt;     buf(9) = io3<br>
&gt;     buf(10)= ich4<br>
&gt;     buf(11)= ico2<br>
&gt;     buf(12)= ih2<br>
&gt;     buf(13)= in2<br>
&gt;     buf(14)= itrace<br>
&gt;     k=15<br>
&gt;     buf(k:k+9) = ispg_idx(1:10); k=k+10<br>
&gt;     buf(k:k+9) = ispl_idx(1:10); k=k+10<br>
&gt;<br>
&gt;     do i=1,Nworkers<br>
&gt;       call MPI_SEND(buf, Nbuf, MPI_INTEGER,<br>
&gt;      &amp;         i, i,  MPI_COMM_WORLD, Ierr)<br>
&gt;<br>
&gt;     enddo<br>
&gt;     print*, &#39;&#39;<br>
&gt;     print*, &#39;done sending int_distrib1&#39;<br>
&gt;     print*, &#39;&#39;<br>
&gt;       endif   !   (Master)<br>
&gt; c<br>
&gt; c<br>
&gt;       if (Worker) then<br>
&gt;         call MPI_RECV(buf, Nbuf, MPI_INTEGER, 0, MyId,<br>
&gt;      &amp;                 MPI_COMM_WORLD, status, ierr)<br>
&gt;     iend  = buf(1)<br>
&gt; ! /aqspid/ in aqindx.cmm stuff<br>
&gt;     iair  = buf(2)<br>
&gt;     ih2o  = buf(3)<br>
&gt;     io2   = buf(4)<br>
&gt;     ico   = buf(5)<br>
&gt;     ino2  = buf(6)<br>
&gt;     iho2  = buf(7)<br>
&gt;     iso2  = buf(8)<br>
&gt;     io3   = buf(9)<br>
&gt;     ich4  = buf(10)<br>
&gt;     ico2  = buf(11)<br>
&gt;     ih2   = buf(12)<br>
&gt;     in2   = buf(13)<br>
&gt;     itrace= buf(14)<br>
&gt;     k=15<br>
&gt;     ispg_idx(1:10) = buf(k:k+9); k=k+10<br>
&gt;     ispl_idx(1:10) = buf(k:k+9); k=k+10<br>
&gt;     print*, &#39;&#39;<br>
&gt;     print*, &#39;done receiving int_distrib1&#39;<br>
&gt;     print*, &#39;&#39;<br>
&gt;       endif  !    (Worker)<br>
&gt; c<br>
&gt;       end  subroutine int_distrib1<br>
&gt;<br>
&gt;<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; To manage subscription options or unsubscribe:<br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
_______________________________________________<br>
mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</blockquote></div><br>