<div dir="ltr"><div>Hi Mark,</div><div><br></div><div>Regarding the error:</div><div>"PETSC ERROR: cuda error 46 (cudaErrorDevicesUnavailable) : all CUDA-capable devices are busy or unavailable"</div><div><br></div><div>how are you requesting a perlmutter compute node?</div><div><br></div><div>thanks</div><div>-paul</div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Dec 10, 2021 at 6:54 AM Mark Adams <<a href="mailto:mfadams@lbl.gov">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">And more Perlmutter weirdness. <div><br><div>If I configure with the above CRAY_ACCEL_TARGET=nvidia80 I get this (configure.log) error. (some CUDA aware MPI related errors)</div><div><br></div><div>But if I configure with CRAY_ACCEL_TARGET="" it gets into Kokkos and I get this configure2.log with:</div></div><div><br></div><div>  #error -- unsupported pgc++ configuration! Only pgc++ 18, 19 and 20 are supported!<br></div><div><br></div><div>I have not seen this before.</div><div><br></div><div>As far as the first problem, If I load the cudatoolkit, which they say you can do *or* set CRAY_ACCEL_TARGET=nvidia80 , the problems go away or maybe fails before it gets to the first error, but it fails.</div><div>I get the configure3 error that has these old warnings, but I'm not sure why it failed exactly.</div><div><br></div><div>This was sort of working yesterday. I did rebase today, but even when working this has been fragile.</div><div><br></div><div>Any suggestions?</div><div>Thanks,</div><div>Mark</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 9, 2021 at 1:59 PM Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Well I found, accidentally, that turning CUDA aware MPI on with export CRAY_ACCEL_TARGET=nvidia80<div> seems to have fixed this. </div><div>Not sure what is going on.</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Dec 9, 2021 at 11:21 AM Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>I am getting this error. I have built this w/o hypre and the test are fine, including the CUDA tests.</div><div>Any ideas?</div><div><br></div><div>I notice that the tests use -dm_mat_type aijcusparse with hypre.</div><div><br></div><div>Thanks,</div><div>Mark</div><div><br></div>08:13 nid003929 adams/fix_mat_ex5k= perlmutter:~/petsc$ make PETSC_DIR=/global/homes/m/madams/petsc PETSC_ARCH=arch-perlmutter-opt-nvidia-cuda check<br>Running check examples to verify correct installation<br>Using PETSC_DIR=/global/homes/m/madams/petsc and PETSC_ARCH=arch-perlmutter-opt-nvidia-cuda<br>C/C++ example src/snes/tutorials/ex19 run successfully with 1 MPI process<br>C/C++ example src/snes/tutorials/ex19 run successfully with 2 MPI processes<br>1,5c1,70<br>< lid velocity = 0.0016, prandtl # = 1., grashof # = 1.<br><   0 SNES Function norm 0.0406612 <br><   1 SNES Function norm 4.12227e-06 <br><   2 SNES Function norm 6.098e-11 <br>< Number of SNES iterations = 2<br>---<br>> [0]PETSC ERROR: --------------------- Error Message --------------------------------------------------------------<br>> [0]PETSC ERROR: GPU error <br>> [0]PETSC ERROR: cuda error 46 (cudaErrorDevicesUnavailable) : all CUDA-capable devices are busy or unavailable<br>> [0]PETSC ERROR: See <a href="https://petsc.org/release/faq/" target="_blank">https://petsc.org/release/faq/</a> for trouble shooting.<br>> [0]PETSC ERROR: Petsc Development GIT revision: v3.16.1-442-gebb4a459f5  GIT Date: 2021-12-08 08:59:23 -0500<br>> [0]PETSC ERROR: /global/u2/m/madams/petsc/src/snes/tutorials/./ex19 on a  named nid003929 by madams Thu Dec  9 08:13:49 2021<br>> [0]PETSC ERROR: Configure options --CFLAGS="   -g -DLANDAU_DIM=2 -DLANDAU_MAX_SPECIES=10 -DLANDAU_MAX_Q=4 -mp=gpu" --CXXFLAGS=" -g -DLANDAU_DIM=2 -DLANDAU_MAX_SPECIES=10 -DLANDAU_MAX_Q=4 -mp=gpu" --FFLAGS="   -g -mp=gpu" --with-cc=cc --with-cxx=CC --with-fc=ftn --with-cudac=/opt/nvidia/hpc_sdk/Linux_x86_64/21.9/compilers/bin/nvcc --with-debugging=0 --download-hypre=1 --with-cuda=1 --with-cuda-arch=80 --with-mpiexec=srun --with-batch=0 --download-p4est=1 --with-zlib=1 --with-make-np=8 --prefix=/global/cfs/projectdirs/m3904/petsc/current/perlmutter-opt-nvidia21.9 PETSC_ARCH=arch-perlmutter-opt-nvidia-cuda<br>> [0]PETSC ERROR: #1 initialize() at /global/u2/m/madams/petsc/src/sys/objects/device/impls/cupm/cupmdevice.cxx:70<br>> [0]PETSC ERROR: #2 getDevice() at /global/u2/m/madams/petsc/src/sys/objects/device/impls/cupm/cupmdevice.cxx:360<br>> [0]PETSC ERROR: #3 PetscDeviceCreate() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:102<br>> [0]PETSC ERROR: #4 PetscDeviceInitializeDefaultDevice_Internal() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:266<br>> [1]PETSC ERROR: --------------------- Error Message --------------------------------------------------------------<br>> [1]PETSC ERROR: GPU error <br>> [1]PETSC ERROR: cuda error 46 (cudaErrorDevicesUnavailable) : all CUDA-capable devices are busy or unavailable<br>> [1]PETSC ERROR: See <a href="https://petsc.org/release/faq/" target="_blank">https://petsc.org/release/faq/</a> for trouble shooting.<br>> [1]PETSC ERROR: Petsc Development GIT revision: v3.16.1-442-gebb4a459f5  GIT Date: 2021-12-08 08:59:23 -0500<br>> [1]PETSC ERROR: /global/u2/m/madams/petsc/src/snes/tutorials/./ex19 on a  named nid003929 by madams Thu Dec  9 08:13:49 2021<br>> [1]PETSC ERROR: Configure options --CFLAGS="   -g -DLANDAU_DIM=2 -DLANDAU_MAX_SPECIES=10 -DLANDAU_MAX_Q=4 -mp=gpu" --CXXFLAGS=" -g -DLANDAU_DIM=2 -DLANDAU_MAX_SPECIES=10 -DLANDAU_MAX_Q=4 -mp=gpu" --FFLAGS="   -g -mp=gpu" --with-cc=cc --with-cxx=CC --with-fc=ftn --with-cudac=/opt/nvidia/hpc_sdk/Linux_x86_64/21.9/compilers/bin/nvcc --with-debugging=0 --download-hypre=1 --with-cuda=1 --with-cuda-arch=80 --with-mpiexec=srun --with-batch=0 --download-p4est=1 --with-zlib=1 --with-make-np=8 --prefix=/global/cfs/projectdirs/m3904/petsc/current/perlmutter-opt-nvidia21.9 PETSC_ARCH=arch-perlmutter-opt-nvidia-cuda<br>> [1]PETSC ERROR: #1 initialize() at /global/u2/m/madams/petsc/src/sys/objects/device/impls/cupm/cupmdevice.cxx:70<br>> [1]PETSC ERROR: #2 getDevice() at /global/u2/m/madams/petsc/src/sys/objects/device/impls/cupm/cupmdevice.cxx:360<br>> [1]PETSC ERROR: #3 PetscDeviceCreate() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:102<br>> [1]PETSC ERROR: #4 PetscDeviceInitializeDefaultDevice_Internal() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:266<br>> [1]PETSC ERROR: #5 PetscDeviceInitialize() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:227<br>> [1]PETSC ERROR: #6 PCCreate_HYPRE() at /global/u2/m/madams/petsc/src/ksp/pc/impls/hypre/hypre.c:2224<br>> [1]PETSC ERROR: #7 PCSetType() at /global/u2/m/madams/petsc/src/ksp/pc/interface/pcset.c:84<br>> [1]PETSC ERROR: #8 PCSetFromOptions() at /global/u2/m/madams/petsc/src/ksp/pc/interface/pcset.c:154<br>> [1]PETSC ERROR: #9 KSPSetFromOptions() at /global/u2/m/madams/petsc/src/ksp/ksp/interface/itcl.c:356<br>> [1]PETSC ERROR: #10 SNESSetFromOptions() at /global/u2/m/madams/petsc/src/snes/interface/snes.c:1113<br>> [1]PETSC ERROR: #11 main() at ex19.c:150<br>> [1]PETSC ERROR: PETSc Option Table entries:<br>> [1]PETSC ERROR: -da_refine 3<br>> [1]PETSC ERROR: -dm_mat_type aijcusparse<br>> [1]PETSC ERROR: -dm_vec_type cuda<br>> [0]PETSC ERROR: #5 PetscDeviceInitialize() at /global/u2/m/madams/petsc/src/sys/objects/device/interface/device.cxx:227<br>> [0]PETSC ERROR: #6 PCCreate_HYPRE() at /global/u2/m/madams/petsc/src/ksp/pc/impls/hypre/hypre.c:2224<br>> [0]PETSC ERROR: #7 PCSetType() at /global/u2/m/madams/petsc/src/ksp/pc/interface/pcset.c:84<br>> [0]PETSC ERROR: #8 PCSetFromOptions() at /global/u2/m/madams/petsc/src/ksp/pc/interface/pcset.c:154<br>> [0]PETSC ERROR: #9 KSPSetFromOptions() at /global/u2/m/madams/petsc/src/ksp/ksp/interface/itcl.c:356<br>> [0]PETSC ERROR: #10 SNESSetFromOptions() at /global/u2/m/madams/petsc/src/snes/interface/snes.c:1113<br>> [0]PETSC ERROR: #11 main() at ex19.c:150<br>> [0]PETSC ERROR: PETSc Option Table entries:<br>> [0]PETSC ERROR: -da_refine 3<br>> [0]PETSC ERROR: -dm_mat_type aijcusparse<br>> [0]PETSC ERROR: -dm_vec_type cuda<br>> [0]PETSC ERROR: -ksp_norm_type unpreconditioned<br>> [0]PETSC ERROR: -nox<br>> [0]PETSC ERROR: -nox_warning<br>> [0]PETSC ERROR: -pc_type hypre<br>> [0]PETSC ERROR: -snes_monitor_short<br>> [0]PETSC ERROR: -use_gpu_aware_mpi 0<br>> [0]PETSC ERROR: ----------------End of Error Message -------send entire error message to petsc-maint@mcs.anl.gov----------<br>> [1]PETSC ERROR: -ksp_norm_type unpreconditioned<br>> [1]PETSC ERROR: -nox<br>> [1]PETSC ERROR: -nox_warning<br>> [1]PETSC ERROR: -pc_type hypre<br>> [1]PETSC ERROR: -snes_monitor_short<br>> [1]PETSC ERROR: -use_gpu_aware_mpi 0<br>> [1]PETSC ERROR: ----------------End of Error Message -------send entire error message to petsc-maint@mcs.anl.gov----------<br>> MPICH Notice [Rank 0] [job id 832277.2] [Thu Dec  9 08:13:50 2021] [nid003929] - Abort(97) (rank 0 in comm 0): application called MPI_Abort(MPI_COMM_WORLD, 97) - process 0<br>> <br>> aborting job:<br>> application called MPI_Abort(MPI_COMM_WORLD, 97) - process 0<br>> MPICH Notice [Rank 1] [job id 832277.2] [Thu Dec  9 08:13:50 2021] [nid003929] - Abort(97) (rank 1 in comm 0): application called MPI_Abort(MPI_COMM_WORLD, 97) - process 1<br>> <br>> aborting job:<br>> application called MPI_Abort(MPI_COMM_WORLD, 97) - process 1<br>> srun: error: nid003929: task 1: Exited with exit code 255<br>> srun: launch/slurm: _step_signal: Terminating StepId=832277.2<br>> slurmstepd: error: *** STEP 832277.2 ON nid003929 CANCELLED AT 2021-12-09T16:13:50 ***<br>> srun: error: nid003929: task 0: Exited with exit code 255<br>/global/homes/m/madams/petsc/src/snes/tutorials<br>Possible problem with ex19 running with hypre, diffs above<br>=========================================<br>C/C++ example src/snes/tutorials/ex19 run successfully with cuda<br>Fortran example src/snes/tutorials/ex5f run successfully with 1 MPI process<br></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>