<div dir="ltr">The problem is, that I need at master size to detect which one of slaves failed, delete it from my distribution list, and continue to work with only live slaves. The questions are:<div><font class="Apple-style-span" face="arial, sans-serif">1) What I should do in order to recognize, which slave dead?</font></div>
<div><font class="Apple-style-span" face="arial, sans-serif">2) How cat I get slave&#39;s fail status: some info about failure?</font></div><div><font class="Apple-style-span" face="arial, sans-serif"><br></font></div><div>
<font class="Apple-style-span" face="arial, sans-serif">Anatoly.<br></font><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; background-color: rgb(255, 255, 255); "><div><br></div></span><br>
<div class="gmail_quote">On Sat, Oct 15, 2011 at 11:47 AM, Pavan Balaji <span dir="ltr">&lt;<a href="mailto:balaji@mcs.anl.gov">balaji@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im"><br>
On 10/11/2011 02:35 PM, Darius Buntinas wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I took a look at your code.  Mpiexec will send a SIGUSR1 signal to<br>
each process to notify it of a failed process (Oops, I forgot about<br>
that when I responded to your previous email).  If you need a signal<br>
for your application, you&#39;ll need to choose another one.  The signal<br>
handler you installed replaced MPICH&#39;s signal handler, so the library<br>
wasn&#39;t able to detect that the process had failed.<br>
</blockquote>
<br></div>
Anatoly: In stacked libraries, you are supposed to chain signal handlers. Replacing another library&#39;s signal handlers can lead to unexpected behavior.<div class="im"><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Another problem is that MPI_Abort() isn&#39;t killing all processes, so<br>
when I commented out CreateOwnSignalHandler(), the master detected<br>
the failure and called MPI_Abort(), but some slave processes were<br>
still hanging in MPI_Barrier().  We&#39;ll need to fix that.<br>
</blockquote>
<br></div>
Darius: What&#39;s the expected behavior here? Should a regular exit look at whether the user asked for a cleanup or not, and an abort kill all processes?<br>
<br>
 -- Pavan<br><font color="#888888">
<br>
-- <br>
Pavan Balaji<br>
<a href="http://www.mcs.anl.gov/~balaji" target="_blank">http://www.mcs.anl.gov/~balaji</a></font><div><div></div><div class="h5"><br>
______________________________<u></u>_________________<br>
mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/<u></u>mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br></div></div>