<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'><br><br><div>> From: jed@jedbrown.org<br>> To: pengxwang@hotmail.com; petsc-users@mcs.anl.gov<br>> Subject: Re: [petsc-users] Petsc cannot be initialized on vesta in some --mode options<br>> Date: Tue, 21 Jan 2014 22:42:14 -0700<br>> <br>> Roc Wang <pengxwang@hotmail.com> writes:<br>> <br>> > Hi,<br>> ><br>> >    I am trying to run a PETSc program with 1024 MPI ranks on<br>> >    vesta.alcf.anl.gov.  The original program which was debugged and<br>> >    run successfully on other clusters and on vesta with a small number<br>> >    of ranks included many PETSc functions to use KSP solver, but they<br>> >    are commented off to test the PETSc initialization. Therefore, only<br>> >    PetscInitialize() and PetscFinalize() and some output functions are<br>> >    in the program. The command to run the job is:<br>> ><br>> > qsub -n <number of nodes> -t 10 --mode <ranks per node> --env<br>> > "F00=a:BAR=b" ./x.r<br>> ><br>> > The total number of ranks is 1024 with different combinations of<br>> > <number of nodes> and <ranks per node>, such as -n 64 --mode c16 or -n<br>> > 16 --mode 64.<br>> <br>> Please send configure.log.  Also try running with PAMID_COLLECTIVES=0 in<br>> the environment.  Vesta periodically has "upgraded" versions of drivers<br>> From IBM, but those "upgrades" frequently introduce bugs (like hanging<br>> in collectives).  Usually PAMID_COLLECTIVES=0 gets around this by<br>> falling back to the MPICH reference implementations (which are debugged<br>> in advance).  Note that you can also turn on core dumps and then get a<br>> stack trace to figure out what caused the hang.<br><br>The configure.log is attached.<br>I also tried running the program with command like:<br>qsub -n <number of nodes> -t 10 --mode <ranks per node> --env "F00=a:BAR=b:PAMID_COLLECTIVES=0" ./x.r <br><br>For 1024 as the total number of ranks, the program was able to run in c1, c16, c32, and c64 mode, but still petsc cannot be initialized in c2, c4, and c8 mode. The runtime log files for c8 mode were attached. Thanks.  <br><br>> <br>> > The results showed that PetscInitialize() cannot start the petsc<br>> > process with -n 64 --mode c16 since there is no output printed to<br>> > stdout.  The .cobaltlog file shows the job started but just .output<br>> > file didn't record any output. The .error file is like:<br>> ><br>> > 2014-01-21 16:31:50.414 (INFO ) [0x40000a3bc20]<br>> > 32092:ibm.runjob.AbstractOptions: using properties file<br>> > /bgsys/local/etc/bg.properties 2014-01-21 16:31:50.416 (INFO )<br>> > [0x40000a3bc20] 32092:ibm.runjob.AbstractOptions: max open file<br>> > descriptors: 65536 2014-01-21 16:31:50.416 (INFO ) [0x40000a3bc20]<br>> > 32092:ibm.runjob.AbstractOptions: core file limit:<br>> > 18446744073709551615 2014-01-21 16:31:50.416 (INFO ) [0x40000a3bc20]<br>> > 32092:tatu.runjob.client: scheduler job id is 154599 2014-01-21<br>> > 16:31:50.419 (INFO ) [0x400004034e0] 32092:tatu.runjob.monitor:<br>> > monitor started 2014-01-21 16:31:50.421 (INFO ) [0x40000a3bc20]<br>> > VST-00420-11731-64:32092:ibm.runjob.client.options.Parser: set local<br>> > socket to runjob_mux from properties file 2014-01-21 16:31:53.111<br>> > (INFO ) [0x40000a3bc20]<br>> > VST-00420-11731-64:729041:ibm.runjob.client.Job: job 729041 started<br>> > 2014-01-21 16:32:03.603 (WARN ) [0x400004034e0]<br>> > 32092:tatu.runjob.monitor: tracklib terminated with exit code 1<br>> > 2014-01-21 16:41:09.554 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: received signal 15<br>> > 2014-01-21 16:41:09.555 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: signal sent from USER<br>> > 2014-01-21 16:41:09.555 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: sent from pid 5894<br>> > 2014-01-21 16:41:09.555 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: could not read<br>> > /proc/5894/exe 2014-01-21 16:41:09.555 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: Permission denied<br>> > 2014-01-21 16:41:09.555 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:ibm.runjob.LogSignalInfo: sent from uid 0 (root)<br>> > 2014-01-21 16:41:11.248 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:729041:ibm.runjob.client.Job: terminated by signal<br>> > 9 2014-01-21 16:41:11.248 (WARN ) [0x40000a3bc20]<br>> > VST-00420-11731-64:729041:ibm.runjob.client.Job: abnormal termination<br>> > by signal 9 from rank 720 2014-01-21 16:41:11.248 (INFO )<br>> > [0x40000a3bc20] tatu.runjob.client: task terminated by signal 9<br>> > 2014-01-21 16:41:11.248 (INFO ) [0x400004034e0]<br>> > 32092:tatu.runjob.monitor: monitor terminating 2014-01-21 16:41:11.250<br>> > (INFO ) [0x40000a3bc20] tatu.runjob.client: monitor completed<br>> ><br>> ><br>> > The petsc can start with -n 16 --mode 64 and -n 1024 --mode c1.  I<br>> > also replaced PetscInitialize() with MPI_Init() and the program can<br>> > start correctly with all combinations of the options.<br>> ><br>> > What is the reason cause this strange result? Thanks.<br>> ><br>> ><br>> >    <br>> >                                     <br></div>                                          </div></body>
</html>