<div dir="ltr">Barry,<div><br></div><div>We had a problem with the thread safe version and found, by pure luck, that apparently if we use -ksp_converged_reason we get segv type failure.  Does this sound sensible?  </div><div><br></div><div>I can give you an executable and environment the run this on Edison if that is useful.</div><div><br></div><div>Thanks,</div><div>Mark</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Feb 17, 2015 at 9:27 PM, Barry Smith <span dir="ltr"><<a href="mailto:bsmith@mcs.anl.gov" target="_blank">bsmith@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
  You need to configure with --with-threadsafety and --with-log=0 and --with-debugging=0<br>
<br>
  Eventually we'll support at least the debugging with thread safety.<br>
<br>
  Barry<br>
<br>
Not sure about that strange message from the cray system.<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
> On Feb 17, 2015, at 8:14 PM, Mark Adams <<a href="mailto:mfadams@lbl.gov">mfadams@lbl.gov</a>> wrote:<br>
><br>
> We have been testing master with a code that calls PETSc serial LU solvers from threads.  I have seen system messages with OMP (see way below) and Robert (cc'ed) reported this useful stack trace.<br>
><br>
> I have not modified my (non-thread) build.  Perhaps I need to or are there PETSc runtime options?<br>
><br>
> This is a Cray XC30 with Intel.<br>
><br>
> Thanks,<br>
> Mark<br>
><br>
> SC[0;39mESC[0;49m[116]PETSC ERROR: Object is in wrong state<br>
> [116]PETSC ERROR: Logging event had unbalanced begin/end pairs<br>
> [116]PETSC ERROR: See <a href="http://www.mcs.anl.gov/petsc/documentation/faq.html" target="_blank">http://www.mcs.anl.gov/petsc/documentation/faq.html</a> for trouble shooting.<br>
> [116]PETSC ERROR: Petsc Development GIT revision: v3.5.3-1570-gcaf1481  GIT Date: 2015-02-07 17:34:17 -0600<br>
> [116]PETSC ERROR: ./xgca_petsc36_col on a arch-xc30-opt64-intel named nid05975 by rhager Tue Feb 17 10:46:32 2015<br>
> [116]PETSC ERROR: Configure options --COPTFLAGS="-fast -no-ipo" --CXXOPTFLAGS="-fast -no-ipoi" --FOPTFLAGS="-fast -no-ipo" --download-hypre --download-superlu_dist --<br>
> download-parmetis --download-metis --with-ssl=0 --with-cc=cc --with-clib-autodetect=0 --with-cxx=CC --with-cxxlib-autodetect=0 --with-debugging=0 --with-fc=ftn --with<br>
> -fortranlib-autodetect=0 --with-hdf5-dir=/opt/cray/hdf5-parallel/1.8.13/intel/140/ --with-shared-libraries=0 --with-x=0 --with-mpiexec=aprun LIBS=-lstdc++ --with-64-b<br>
> it-indices PETSC_ARCH=arch-xc30-opt64-intel PETSC_DIR=/global/u2/m/madams/petsc_master<br>
> [116]PETSC ERROR: #1 PetscLogEventEndDefault() line 694 in /global/u2/m/madams/petsc_master/src/sys/logging/utils/eventlog.c<br>
> [116]PETSC ERROR: #2 MatLUFactorSymbolic() line 2894 in /global/u2/m/madams/petsc_master/src/mat/interface/matrix.c<br>
> [116]PETSC ERROR: #3 PCSetUp_LU() line 127 in /global/u2/m/madams/petsc_master/src/ksp/pc/impls/factor/lu/lu.c<br>
> [116]PETSC ERROR: #4 PCSetUp() line 918 in /global/u2/m/madams/petsc_master/src/ksp/pc/interface/precon.c<br>
> [116]PETSC ERROR: #5 KSPSetUp() line 306 in /global/u2/m/madams/petsc_master/src/ksp/ksp/interface/itfunc.c<br>
> [116]PETSC ERROR: #6 KSPSolve() line 503 in /global/u2/m/madams/petsc_master/src/ksp/ksp/interface/itfunc.c<br>
><br>
><br>
> Other error message:<br>
><br>
><br>
> OMP: Error #13: Assertion failure at kmp_runtime.c(1588).<br>
> OMP: Hint: Please submit a bug report with this message, compile and run commands used, and machine configuration info including native compiler and operating system versions. Faster response will be obtained by including all program sources. For information on submitting this issue, please see <a href="http://www.intel.com/software/products/support/" target="_blank">http://www.intel.com/software/products/support/</a>.<br>
> _pmiu_daemon(SIGCHLD): [NID 05979] [c7-3c0s6n3] [Tue Feb 17 15:14:43 2015] PE RANK 23 exit signal Killed<br>
> _pmiu_daemon(SIGCHLD): [NID 05976] [c7-3c0s6n0] [Tue Feb 17 15:14:43 2015] PE RANK 10 exit signal Killed<br>
> [NID 05979] 2015-02-17 15:14:43 Apid 10147992: initiated application termination<br>
> [NID 05979] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 239]. Please contact admin for details. Killing pid 18637(xgca)<br>
> [NID 05976] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 73]. Please contact admin for details. Killing pid 15380(xgca)<br>
> [NID 05984] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 34636(xgca)<br>
> [NID 05988] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 59]. Please contact admin for details. Killing pid 38496(xgca)<br>
> [NID 06019] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 11132(xgca)<br>
> [NID 05980] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 8320(xgca)<br>
> [NID 05993] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 46182(xgca)<br>
> [NID 06020] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 249]. Please contact admin for details. Killing pid 23753(xgca)<br>
> [NID 05987] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 87]. Please contact admin for details. Killing pid 11254(xgca)<br>
> [NID 05986] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 41]. Please contact admin for details. Killing pid 6630(xgca)<br>
> [NID 05981] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 31]. Please contact admin for details. Killing pid 10520(xgca)<br>
> [NID 05999] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 7]. Please contact admin for details. Killing pid 1843(xgca)<br>
> [NID 05985] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 26498(xgca)<br>
> [NID 05998] 2015-02-17 15:14:43 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 209]. Please contact admin for details. Killing pid 20387(xgca)<br>
> [NID 05994] 2015-02-17 15:14:53 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 39462(xgca)<br>
> [NID 05983] 2015-02-17 15:14:53 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 18598(xgca)<br>
> [NID 05995] 2015-02-17 15:14:54 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 42322(xgca)<br>
> [NID 05996] 2015-02-17 15:14:54 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 34248(xgca)<br>
> [NID 05978] 2015-02-17 15:14:55 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 9483(xgca)<br>
> [NID 05975] 2015-02-17 15:14:56 Apid 10147992: Cray HSN detected critical error 0x4416[ptag 0]. Please contact admin for details. Killing pid 11470(xgca)<br>
> Application 10147992 exit codes: 137<br>
> Application 10147992 exit signals: Killed<br>
> Application 10147992 resources: utime ~2194s, stime ~199s, Rss ~488560, inblocks ~908164, outblocks ~2571652<br>
><br>
<br>
</div></div></blockquote></div><br></div>