Darius Thanks for your help. I am using Windows platform and new to MPI. So I don&#39;t know how to pass the &quot;-disable-auto-cleanup&quot; to mpiexec. How can i do that? Can you explain it and send a simple sample code about setting MPI_ERRORS_RETURN?<br>
<br><div class="gmail_quote">On Wed, Nov 3, 2010 at 6:29 PM, Darius Buntinas <span dir="ltr">&lt;<a href="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<br>
Hi Harun,<br>
<br>
If you use MPICH2 1.3, and pass the -disable-auto-cleanup parameter to mpiexec, then your app will not automatically be killed when a process dies before calling MPI_Finalize.  You&#39;ll then need to set the default error handler in MPI to MPI_ERRORS_RETURN, so that the application won&#39;t abort when an error is detected.<br>

<br>
The MPICH2 library should allow you to continue communicating with other processes if a process dies.  However, collective operations on a communicator that includes a dead process will most likely hang some processes.<br>

<br>
I hope this helps.<br>
<br>
-d<br>
<div class="im"><br>
On Nov 3, 2010, at 4:17 AM, Harun Raşit ER wrote:<br>
<br>
&gt; When one of the processes is failed, all my job is aborted. But there must be a solution that i cannot find! I would like to continue without the failed process and do the job with remaining processes. Is there any idea or solution?<br>

&gt;<br>
&gt; thanks for your helps.<br>
</div>&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
_______________________________________________<br>
mpich-discuss mailing list<br>
<a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</blockquote></div><br>