Hi Darius,<div><br></div><div>1 That exactly was the problem, I re-compiled my program and it works, except for one issue,</div><div><br></div><div>   After restarting the parallel process from the checkpoint file, the mpiexec process hangs and does not terminate at all.</div>


<div>   The spawned process hover around in &lt;defunct&gt; state. After I stop mpiexec myself, these error messages are displayed,<br><br></div><div><div><i>  ^C[mpiexec@opt09] connection to proxy terminated unexpectedly</i></div>
<div><i>  Ctrl-C caught... cleaning up processes</i></div>
<div><i>  [press Ctrl-C again to force abort]</i></div><div><i>  APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)</i></div><div><br></div><div>2. There is another independent problem(more severe) with running programs on multiple hosts. For all my previous mails in this chain, I had run my programs on single host.</div>
<div>   running mpiexec with multiple hosts displays the following error:</div>
<div><br></div><div>   <i>Fatal error in MPI_Send: Other MPI error, error stack:</i></div><div><i>   MPI_Send(173).....................: MPI_Send(buf=0x7fff8d47fe60, count=1, MPI_INT, dest=1, tag=1, MPI_COMM_WORLD) failed</i></div>

<div><i>   MPIDI_CH3I_Progress(334)..........:</i></div><div><i>   MPID_nem_mpich2_blocking_recv(906):</i></div><div><i>   MPID_nem_tcp_connpoll(1861).......: Communication error with rank 1:</i></div><div><i>   APPLICATION TERMINATED WITH THE EXIT STRING: Hangup (signal 1)</i></div>

<div><br></div><div>   I also ran &#39;make testing&#39; with  HYDRA_HOST_FILE set to the host file. All the tests emitted same error stack.</div><div>   </div><div>  Can you please suggest how do I troubleshoot this problem ?</div>
<div><br></div><div>Thank you.</div><div>Kishor</div><div class="gmail_quote">On Fri, Oct 8, 2010 at 4:54 PM, Darius Buntinas <span dir="ltr">&lt;<a href="mailto:buntinas@mcs.anl.gov" target="_blank">buntinas@mcs.anl.gov</a>&gt;</span> wrote:<br>





<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
Did you recompile mpiexample with BLCR-enabled MPICH2?  The error you&#39;re getting is from blcr that typically means that you&#39;re trying to checkpoint a process that doesn&#39;t support checkpointing.<br>
<font color="#888888"><br>
-d<br>
</font><div><div></div><div><br>
On Oct 8, 2010, at 3:00 PM, kishor kharbas wrote:<br>
<br>
&gt; Thank you Darius for your response.<br>
&gt;<br>
&gt; I have now built mpich2-1.3rc2 and hydra.<br>
&gt; So I use mpiexec.hydra in Hydra installation, this is the command I run<br>
&gt;<br>
&gt; mpiexec.hydra -ckpointlib blcr -ckpoint-prefix=/home/kkharba/chkpnts -n 2 ./mpiexample<br>
&gt;<br>
&gt; But when I send SIGUSR1 to the mpiexec process, I get following error.<br>
&gt;<br>
&gt; [proxy:0:0@opt09] requesting checkpoint<br>
&gt; [proxy:0:0@opt09] HYDT_ckpoint_blcr_suspend (./tools/ckpoint/blcr/ckpoint_blcr.c:164): cr_request_checkpoint failed, Unknown error 2356<br>
&gt; [proxy:0:0@opt09] HYDT_ckpoint_suspend (./tools/ckpoint/ckpoint.c:78): blcr checkpoint returned error<br>
&gt; [proxy:0:0@opt09] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:901): checkpoint suspend failed<br>
&gt; [proxy:0:0@opt09] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:76): callback returned error status<br>
&gt; [proxy:0:0@opt09] main (./pm/pmiserv/pmip.c:221): demux engine error waiting for event<br>
&gt; [mpiexec@opt09] connection to proxy terminated unexpectedly<br>
&gt;<br>
&gt;<br>
&gt; Is there anything wrong that I might be doing ?<br>
&gt;<br>
&gt;<br>
&gt; Thank you.<br>
&gt; On Fri, Oct 8, 2010 at 12:33 PM, Darius Buntinas &lt;<a href="mailto:buntinas@mcs.anl.gov" target="_blank">buntinas@mcs.anl.gov</a>&gt; wrote:<br>
&gt; BLCR checkpointing is not supported in 1.2.1 (hydra supports it, but the mpich2 library doesn&#39;t).  Try 1.3rc2.  You can find documentation in the user manual and the README:<br>
&gt;<br>
&gt; <a href="http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads" target="_blank">http://www.mcs.anl.gov/research/projects/mpich2/downloads/index.php?s=downloads</a><br>
&gt;<br>
&gt; -d<br>
&gt;<br>
&gt; On Oct 8, 2010, at 8:41 AM, kishor kharbas wrote:<br>
&gt;<br>
&gt; &gt; Hi all,<br>
&gt; &gt;<br>
&gt; &gt; I am trying to install mpich2-1.2.1p1 with BLCR support.<br>
&gt; &gt;<br>
&gt; &gt; The configure script which I run is:<br>
&gt; &gt; ./configure --prefix=/home/kkharba/mpich2-1.2.1p1-install --enable-checkpointing --with-hydra-ckpointlib=blcr --with-blcr=/home/kkharba/blcr-install<br>
&gt; &gt;<br>
&gt; &gt; the configure script does not complete but gives this error:<br>
&gt; &gt;<br>
&gt; &gt; configure: error: &#39;cli.h not found.  Did you specify --with-cli-dir=?&#39;<br>
&gt; &gt; configure: error: ./configure failed for channels/nemesis<br>
&gt; &gt; configure: error: Configure of src/mpid/ch3 failed!<br>
&gt; &gt;<br>
&gt; &gt; I searched all the file systems but could not find this file.<br>
&gt; &gt;<br>
&gt; &gt; Can you help me out in this issue !!<br>
&gt; &gt;<br>
&gt; &gt; Thank you.<br>
&gt; &gt; Kishor Kharbas<br>
&gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list<br>
&gt; &gt; <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Kishor Kharbas<br>
&gt; MS Student<br>
&gt; Department of Computer Science<br>
&gt; NC State University<br>
&gt; Raleigh, NC 27606<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
_______________________________________________<br>
mpich-discuss mailing list<br>
<a href="mailto:mpich-discuss@mcs.anl.gov" target="_blank">mpich-discuss@mcs.anl.gov</a><br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><i>Kishor Kharbas</i><br><i style="font-family:times new roman,serif">MS Student<br>Department of Computer Science<br>NC State University</i><i style="font-family:times new roman,serif"><br>





Raleigh, NC 27606</i><br>
</div>