Hi,<div><br></div><div>I am working on a course project which aims to evaluate MPICH2 with BLCR. But I am having some problems with running my benchmarks under ckpoint mode. The problem I have is that when the second checkpoint is requested, a error would occur, no matter what time interval I specify or which benchmark is running.</div>
<div><br></div><div>Here is the error message:</div><div><br></div><div>--------------------------------------------------------------------------------------</div><div><div>[proxy:0:0@bo-laptop] requesting checkpoint</div>
<div>[proxy:0:0@bo-laptop] HYDT_ckpoint_checkpoint (./tools/ckpoint/ckpoint.c:111): Previous checkpoint has not completed.[proxy:0:0@bo-laptop] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:947): checkpoint suspend failed</div>
<div>[proxy:0:0@bo-laptop] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status</div><div>[proxy:0:0@bo-laptop] main (./pm/pmiserv/pmip.c:225): demux engine error waiting for event</div>
<div>[mpiexec@bo-laptop] control_cb (./pm/pmiserv/pmiserv_cb.c:215): assert (!closed) failed</div><div>[mpiexec@bo-laptop] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status</div>
<div>[mpiexec@bo-laptop] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:181): error waiting for event</div><div>[mpiexec@bo-laptop] main (./ui/mpich/mpiexec.c:420): process manager error waiting for completion</div>
</div><div>------------------------------------------------------------------------------------</div><div><br></div><div>It happened when the second checkpoint is requested. It seems that the first one is not complete when the second one is coming. But from the code I don&#39;t see any hint for why the first checkpoint is not complete. The checkpointing file of the first one is actually very large (over 150 MB). </div>
<div><br></div><div>Thank you very much for your help.</div><div><br></div><div>Bo Fang</div>