<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.30.3">
</HEAD>
<BODY>
Hi Darius,<BR>
<BR>
I applied the patch following your instructions and don't work.<BR>
<BR>
I received this message (I ran salloc with verbose option) <BR>
<BR>
[<A HREF="mailto:fernando_luz@masternode1">fernando_luz@masternode1</A> modelos_teste_mpi]$ salloc --verbose -n 26 --exclusive mpiexec -ckpointlib blcr -ckpoint-prefix teste.ckpoint/ -ckpoint-interval 20 -ckpoint-num 0<BR>
salloc: auth plugin for Munge (<A HREF="http://home.gna.org/munge/)">http://home.gna.org/munge/)</A> loaded<BR>
salloc: Consumable Resources (CR) Node Selection plugin loaded with argument 4<BR>
salloc: Granted job allocation 12941<BR>
salloc: Relinquishing job allocation 12941<BR>
salloc: Job allocation 12941 has been revoked.<BR>
salloc: Command &quot;mpiexec&quot; was terminated by signal 11<BR>
<BR>
Thanks for help,<BR>
<BR>
Regards<BR>
<BR>
Fernando Luz<BR>
<BR>
<BR>
On Sex, 2011-10-28 at 11:13 -0500, Darius Buntinas wrote:
<BLOCKQUOTE TYPE=CITE>
<PRE>
Hi Fernando,

Can you apply this patch and try it again?  Don't forget to do a make clean;make;make install again.

Please let us know if this fixes the problem.

Thanks,
-d



On Oct 26, 2011, at 10:10 AM, Fernando Luz wrote:

&gt; Darius,
&gt; 
&gt; Thanks for the help. It's works. I forgot to recompile my application.
&gt; 
&gt; But I have another question. It's possible use the checkpoint-restart feature in mpich2 using slurm pm?
&gt; 
&gt; I tried execute 
&gt; 
&gt; salloc -n 26 mpiexec -ckpointlib blcr -ckpoint-prefix ./teste.ckpoint -ckpoint-interval 30 Dyna Prea_teste001.p3d 2
&gt; 
&gt; And to restart I use
&gt; 
&gt; salloc -n 26 mpiexec -ckpointlib blcr -ckpoint-prefix ./teste.ckpoint -ckpoint-interval 30 -ckpoint-num 2
&gt; 
&gt; I received the follow message
&gt; salloc: Granted job allocation 12613
&gt; [mpiexec@masternode1] HYD_pmcd_pmi_alloc_pg_scratch (./pm/pmiserv/pmiserv_utils.c:594): assert (pg-&gt;pg_process_count * sizeof(struct HYD_pmcd_pmi_ecount)) failed
&gt; [mpiexec@masternode1] HYD_pmci_launch_procs (./pm/pmiserv/pmiserv_pmci.c:103): error allocating pg scratch space
&gt; [mpiexec@masternode1] main (./ui/mpich/mpiexec.c:401): process manager returned error launching processes
&gt; salloc: Relinquishing job allocation 12613
&gt; 
&gt; The entire cluster are run under NFS.
&gt; 
&gt; But if I use salloc to select the nodes and I use the -f hosts (with the nodes allocated by salloc) works perfectly. 
&gt; 
&gt; Regards
&gt; 
&gt; Fernando Luz
&gt; 
&gt; 
&gt; On Seg, 2011-10-24 at 16:41 -0500, Darius Buntinas wrote:
&gt;&gt; Hmm strange.  Did you do a make clean first?  I.e.:
&gt;&gt;   make clean
&gt;&gt;   make
&gt;&gt;   make install
&gt;&gt; 
&gt;&gt; Also make sure you recompile your app (maybe even do a make clean for the app too).
&gt;&gt; 
&gt;&gt; -d
&gt;&gt; 
&gt;&gt; 
&gt;&gt; On Oct 22, 2011, at 3:28 PM, Fernando Luz wrote:
&gt;&gt; 
&gt;&gt; &gt; Hi Darius,
&gt;&gt; &gt; 
&gt;&gt; &gt; I applied the patch, but I have the same errors.
&gt;&gt; &gt; 
&gt;&gt; &gt; Do you need some file or info about my system?
&gt;&gt; &gt; 
&gt;&gt; &gt; Regards
&gt;&gt; &gt; 
&gt;&gt; &gt; Fernando Luz
&gt;&gt; &gt; 
&gt;&gt; &gt; ----- Mensagem original -----
&gt;&gt; &gt; De: &quot;Darius Buntinas&quot; &lt;
&gt;&gt; <A HREF="mailto:buntinas@mcs.anl.gov">buntinas@mcs.anl.gov</A>
&gt;&gt; &gt;
&gt;&gt; &gt; Para: 
&gt;&gt; <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt;&gt; 
&gt;&gt; &gt; Enviadas: Sexta-feira, 21 de Outubro de 2011 16:20:49
&gt;&gt; &gt; Assunto: Re: [mpich-discuss] Trouble with checkpoint
&gt;&gt; &gt; 
&gt;&gt; &gt; Hi Fernando,
&gt;&gt; &gt; 
&gt;&gt; &gt; Can you apply this patch and see if it fixes your problem?
&gt;&gt; &gt; 
&gt;&gt; &gt; Let us know how it goes.
&gt;&gt; &gt; -d
&gt;&gt; &gt; 
&gt;&gt; &gt; 
&gt;&gt; &gt; 
&gt;&gt; &gt; On Oct 19, 2011, at 2:13 PM, Fernando Luz wrote:
&gt;&gt; &gt; 
&gt;&gt; &gt;&gt; Hi,
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; I tried use the checkpoint-restart with this execution. 
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; mpiexec -ckpointlib blcr -ckpoint-prefix ./teste.ckpoint -ckpoint-interval 30 -f hosts -n 26 Dyna Prea_teste001.p3d 2
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; with mpich2 and I received the follows errors. 
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt;  0% [=                                                 ] 00:00:28 / 00:56:27
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:0@s23n20.gradebr.tpn">0@s23n20.gradebr.tpn</A>
&gt;&gt; ] requesting checkpoint
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:1@s23n21.gradebr.tpn">1@s23n21.gradebr.tpn</A>
&gt;&gt; ] requesting checkpoint
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:2@s23n22.gradebr.tpn">2@s23n22.gradebr.tpn</A>
&gt;&gt; ] requesting checkpoint
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:3@s23n23.gradebr.tpn">3@s23n23.gradebr.tpn</A>
&gt;&gt; ] requesting checkpoint
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:0@s23n20.gradebr.tpn">0@s23n20.gradebr.tpn</A>
&gt;&gt; ] checkpoint completed
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:1@s23n21.gradebr.tpn">1@s23n21.gradebr.tpn</A>
&gt;&gt; ] checkpoint completed
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:2@s23n22.gradebr.tpn">2@s23n22.gradebr.tpn</A>
&gt;&gt; ] checkpoint completed
&gt;&gt; &gt;&gt; [proxy:0:
&gt;&gt; <A HREF="mailto:3@s23n23.gradebr.tpn">3@s23n23.gradebr.tpn</A>
&gt;&gt; ] checkpoint completed
&gt;&gt; &gt;&gt;  0% [=                                                 ] 00:00:29 / 00:56:28Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1ebebfc0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff7ba7b620) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1f84f600, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff957566a0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1fc58d50, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7ffff54102a0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x7752ca0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fffeab72ca0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x12274ca0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fffb55e4ea0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1b6c4600, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff74e63520) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x15511ca0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff9fb57ca0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x815afc0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff87e31fa0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0xf1e7d80, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff19d30120) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1758f9a0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff06ac13a0) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0xaaf8ce0, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff7e488920) failed
&gt;&gt; &gt;&gt; MPIDI_CH3I_Progress(321)..: 
&gt;&gt; &gt;&gt; MPIDI_nem_ckpt_finish(469): sem_wait() failed Interrupted system call
&gt;&gt; &gt;&gt; Fatal error in MPI_Recv: Other MPI error, error stack:
&gt;&gt; &gt;&gt; MPI_Recv(186).............: MPI_Recv(buf=0x1cc47990, count=7, MPI_DOUBLE, src=0, tag=2, MPI_COMM_WORLD, status=0x7fff00638520) failed
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; without checkpoint, the execution is accomplish. How I need to proceed to solve this error?
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; Regards
&gt;&gt; &gt;&gt; 
&gt;&gt; &gt;&gt; Fernando Luz
&gt;&gt; &gt;&gt; _______________________________________________
&gt;&gt; &gt;&gt; mpich-discuss mailing list     
&gt;&gt; <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt;&gt; 
&gt;&gt; &gt;&gt; To manage subscription options or unsubscribe:
&gt;&gt; &gt;&gt; 
&gt;&gt; <A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>
&gt;&gt; 
&gt;&gt; &gt; 
&gt;&gt; &gt; 
&gt;&gt; &gt; _______________________________________________
&gt;&gt; &gt; mpich-discuss mailing list     
&gt;&gt; <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt;&gt; 
&gt;&gt; &gt; To manage subscription options or unsubscribe:
&gt;&gt; &gt; 
&gt;&gt; <A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>
&gt;&gt; 
&gt;&gt; &gt; _______________________________________________
&gt;&gt; &gt; mpich-discuss mailing list     
&gt;&gt; <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt;&gt; 
&gt;&gt; &gt; To manage subscription options or unsubscribe:
&gt;&gt; &gt; 
&gt;&gt; <A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>
&gt;&gt; 
&gt;&gt; 
&gt;&gt; _______________________________________________
&gt;&gt; mpich-discuss mailing list     
&gt;&gt; <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt;&gt; 
&gt;&gt; To manage subscription options or unsubscribe:
&gt;&gt; 
&gt;&gt; <A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>
&gt; 
&gt; _______________________________________________
&gt; mpich-discuss mailing list     <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
&gt; To manage subscription options or unsubscribe:
&gt; <A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>

_______________________________________________
mpich-discuss mailing list     <A HREF="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</A>
To manage subscription options or unsubscribe:
<A HREF="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</A>
</PRE>
</BLOCKQUOTE>
<BR>
</BODY>
</HTML>