<div dir="ltr"><div>I&quot; currently use <b>mpich2</b>.</div><div><b>Configuration</b>:</div><div><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">   I&#39;m
using plain ./configure no options</span></p>

<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">   ./configure
--prefix=/space/local/mpich2</span></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><b>Execution:</b></span></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;">mpiexec.hydra -disable-auto-cleanup -launcher rsh -launcher-exec /usr/bin/rsh -f machines2.txt -n 10 mpi_send_rec_testany 1000 10000 2 20 1 logs/res_test</span></p>
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><br></span></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><b>Success run output on screen:</b></span></p>
<p class="MsoNormal"></p><p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">YOUR APPLICATION TERMINATED WITH THE EXIT STRING: Floating point exception (signal 8)</font></p><p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">This typically refers to a problem with your application.</font></p>
<p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">Please see the FAQ page for debugging suggestions</font></p><div style="font-weight: bold; font-family: Arial, sans-serif; font-size: 10pt; "><br>
</div><p></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><b>Not success run output on screen:</b></span></p><p class="MsoNormal"></p><p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">control_cb (./pm/pmiserv/pmiserv_cb.c:321): assert (!closed) failed</font></p>
<p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status</font></p><p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:181): error waiting for event</font></p>
<p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif">[mpiexec@student1-ib0] main (./ui/mpich/mpiexec.c:420): process manager error waiting for completion</font></p><p></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><br>
</span></p><p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif" size="2">The program is not stable. It recognizes fail of slave 1 as expected, but not always completed </font><font class="Apple-style-span" face="Arial, sans-serif">successfully</font><font class="Apple-style-span" face="Arial, sans-serif" size="2">.</font></p>
<p class="MsoNormal"><font class="Apple-style-span" face="Arial, sans-serif" size="2">Currently I&quot;m ignore SIGUSR1 (overwrite of signal handler).</font></p><p class="MsoNormal"><span class="Apple-style-span" style="font-family: Arial, sans-serif; "><br>
</span></p><p class="MsoNormal"><span class="Apple-style-span" style="font-family: Arial, sans-serif; ">Can you please tell me:</span></p><p class="MsoNormal"></p><ul><li><span class="Apple-style-span" style="font-family: Arial, sans-serif; ">what should I do in order to stabilize my test. How should I refer to SIGUSR1 in the case of failure.</span></li>
<li><span class="Apple-style-span" style="font-family: Arial, sans-serif; ">This test uses polling mechanism implemented via MPI_Test per connection. What should I do to get same results using MPI_Waitany. How can I recognize fail process rank, exclude it from communication, and continue working with survived processes.</span></li>
</ul><p></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><br></span></p><p class="MsoNormal"><span style="font-size:10.0pt;font-family:&quot;Arial&quot;,&quot;sans-serif&quot;"><br>
</span></p></div><br><br><div class="gmail_quote">On Tue, Oct 25, 2011 at 5:27 PM, Darius Buntinas <span dir="ltr">&lt;<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
It looks like you&#39;re using MVAPICH.  I don&#39;t believe MVAPICH supports the fault-tolerance features you&#39;re looking for.<br>
<br>
You&#39;ll need to use MPICH2 with the default channel (i.e., don&#39;t specify --with-device=...), leave out --enable-threads (it&#39;s the default already) and don&#39;t use mpd (leave out --with-pm=...)<br>
<font color="#888888"><br>
-d<br>
</font><div><div></div><div class="h5"><br>
On Oct 25, 2011, at 10:16 AM, Anatoly G wrote:<br>
<br>
&gt; Compilation performed by my boss.<br>
&gt; Configuration:<br>
&gt; ./configure --with-device=ch3:sock --enable-debuginfo --prefix=/space/local/mvapich2 CFLAGS=-fPIC --enable-shared --enable-threads --enable-sharedlibs=gcc --with-pm=mpd:hydra<br>
&gt;<br>
&gt; mvapich2-1.7rc2<br>
&gt;<br>
&gt;<br>
&gt; Anatoly.<br>
&gt;<br>
&gt; On Tue, Oct 25, 2011 at 4:17 PM, Darius Buntinas &lt;<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>&gt; wrote:<br>
&gt;<br>
&gt; Did you configure and compile MPICH2 yourself?  If you did, please send us the command you used to configure it (e.g., ./configure --prefix=...).<br>
&gt;<br>
&gt; If you didn&#39;t compile it yourself, you&#39;ll need to talk to the person who did to get that information.<br>
&gt;<br>
&gt; Also, what version of MPICH2 are you using?<br>
&gt;<br>
&gt; -d<br>
&gt;<br>
&gt; On Oct 25, 2011, at 2:30 AM, Anatoly G wrote:<br>
&gt;<br>
&gt; &gt; Initilization lines are:<br>
&gt; &gt; MPI::Init(argc, argv);<br>
&gt; &gt; MPI_Errhandler_set(MPI_COMM_WORLD, MPI_ERRORS_RETURN);<br>
&gt; &gt;<br>
&gt; &gt; Execution command:<br>
&gt; &gt; mpiexec.hydra -disable-auto-cleanup -launcher rsh -launcher-exec /usr/bin/rsh -f machines.txt -n 11 mpi_send_sync<br>
&gt; &gt;<br>
&gt; &gt; Anatoly.<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; On Mon, Oct 24, 2011 at 10:17 PM, Darius Buntinas &lt;<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt; In MPI_Init, the signal handler should be installed, so SIGUSR1 shouldn&#39;t kill the process.<br>
&gt; &gt;<br>
&gt; &gt; Can you send us the configure line you used?<br>
&gt; &gt;<br>
&gt; &gt; -d<br>
&gt; &gt;<br>
&gt; &gt; On Oct 23, 2011, at 1:54 AM, Anatoly G wrote:<br>
&gt; &gt;<br>
&gt; &gt; &gt; Sorry, I&quot;m still don&#39;t understand.<br>
&gt; &gt; &gt; When remote process fails, rest of processes get SIGUSR1, and by default are failed, because they don&#39;t have any signal handler.<br>
&gt; &gt; &gt; If I&quot;ll create signal handler for SIGUSR1, I can&#39;t detect that one of remote/local processes dead. How can I recognize which remote process dead. Signal has only local host process information.<br>

&gt; &gt; &gt;<br>
&gt; &gt; &gt; Anatoly.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Mon, Oct 17, 2011 at 7:40 PM, Darius Buntinas &lt;<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Oct 15, 2011, at 4:47 AM, Pavan Balaji wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; On 10/11/2011 02:35 PM, Darius Buntinas wrote:<br>
&gt; &gt; &gt; &gt;&gt; I took a look at your code.  Mpiexec will send a SIGUSR1 signal to<br>
&gt; &gt; &gt; &gt;&gt; each process to notify it of a failed process (Oops, I forgot about<br>
&gt; &gt; &gt; &gt;&gt; that when I responded to your previous email).  If you need a signal<br>
&gt; &gt; &gt; &gt;&gt; for your application, you&#39;ll need to choose another one.  The signal<br>
&gt; &gt; &gt; &gt;&gt; handler you installed replaced MPICH&#39;s signal handler, so the library<br>
&gt; &gt; &gt; &gt;&gt; wasn&#39;t able to detect that the process had failed.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; Anatoly: In stacked libraries, you are supposed to chain signal handlers. Replacing another library&#39;s signal handlers can lead to unexpected behavior.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; If you set the signal handler before calling MPI_Init, MPICH will chain your signal handler.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;&gt; Another problem is that MPI_Abort() isn&#39;t killing all processes, so<br>
&gt; &gt; &gt; &gt;&gt; when I commented out CreateOwnSignalHandler(), the master detected<br>
&gt; &gt; &gt; &gt;&gt; the failure and called MPI_Abort(), but some slave processes were<br>
&gt; &gt; &gt; &gt;&gt; still hanging in MPI_Barrier().  We&#39;ll need to fix that.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; Darius: What&#39;s the expected behavior here? Should a regular exit look at whether the user asked for a cleanup or not, and an abort kill all processes?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; That&#39;s what I think it should do.  MPI_Abort should kill all processes in the specified communicator.  If you can&#39;t kill only the processes in the communicator, then it should kill all connected processes (i.e., the job, plus any dynamic procs).<br>

&gt; &gt; &gt;<br>
&gt; &gt; &gt; -d<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; -- Pavan<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; --<br>
&gt; &gt; &gt; &gt; Pavan Balaji<br>
&gt; &gt; &gt; &gt; <a href="http://www.mcs.anl.gov/~balaji" target="_blank">http://www.mcs.anl.gov/~balaji</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; _______________________________________________<br>
&gt; &gt; &gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; &gt; To manage subscription options or unsubscribe:<br>
&gt; &gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; _______________________________________________<br>
&gt; &gt; &gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; &gt; To manage subscription options or unsubscribe:<br>
&gt; &gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; To manage subscription options or unsubscribe:<br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; To manage subscription options or unsubscribe:<br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; To manage subscription options or unsubscribe:<br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; To manage subscription options or unsubscribe:<br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
_______________________________________________<br>
mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br></div>