<div dir="ltr">I did not set OMP_NUM_THREADS in my .bashrc or job script. The job ran out of time.<div>If I did export OMP_NUM_THREADS=1 in job script on Cori, the job ran very slowly, i.e., finished in 200 seconds compared to 1s without --with-openmp.</div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">--Junchao Zhang</div></div></div>
<br><div class="gmail_quote">On Tue, Jun 26, 2018 at 12:05 PM, Balay, Satish <span dir="ltr"><<a href="mailto:balay@mcs.anl.gov" target="_blank">balay@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I wonder if these jobs are scheduled in such a way so that they are not oversubscribed.<br>
<br>
i.e number_mpi_jobs_per_node * number_of_openmp_threads_per_<wbr>node <= no_of_cores_per_node<br>
<span class="HOEnZb"><font color="#888888"><br>
Satish<br>
</font></span><span class="im HOEnZb"><br>
On Tue, 26 Jun 2018, Mark Adams wrote:<br>
<br>
</span><div class="HOEnZb"><div class="h5">> Interesting, I am seeing the same thing with ksp/ex56 (elasticity) with<br>
> 30^3 grid on each process. One process runs fine (1.5 sec) but 8 processes<br>
> with 30^3 on each process took 156 sec.<br>
> <br>
> And, PETSc's log_view is running extremely slow. I have the total time<br>
> (156) but each event is taking like a minute or more to come out.<br>
> <br>
> On Tue, Jun 26, 2018 at 10:13 AM Junchao Zhang <<a href="mailto:jczhang@mcs.anl.gov">jczhang@mcs.anl.gov</a>> wrote:<br>
> <br>
> ><br>
> > On Tue, Jun 26, 2018 at 8:26 AM, Mark Adams <<a href="mailto:mfadams@lbl.gov">mfadams@lbl.gov</a>> wrote:<br>
> ><br>
> >><br>
> >><br>
> >> On Tue, Jun 26, 2018 at 12:19 AM Junchao Zhang <<a href="mailto:jczhang@mcs.anl.gov">jczhang@mcs.anl.gov</a>><br>
> >> wrote:<br>
> >><br>
> >>> Mark,<br>
> >>>   Your email reminded me my recent experiments. My PETSc was configured --with-openmp=1.<br>
> >>> With hypre, my job ran out of time. That was on an Argonne Xeon cluster.<br>
> >>><br>
> >><br>
> >> Interesting. I tested on Cori's Haswell nodes and it looked fine. I did<br>
> >> not time it but seemed OK.<br>
> >><br>
> >><br>
> >>>   I repeated the experiments on Cori's Haswell nodes.  --with-openmp=1,<br>
> >>> "Linear solve converged due to CONVERGED_RTOL iterations 5". But it took<br>
> >>> very long time (10 mins). Without --with-openmp=1, it took less than 1<br>
> >>> second.<br>
> >>><br>
> >><br>
> >> Humm. I seemed to run OK on Cori's Haswell nodes. Where you running a<br>
> >> significant sized job? I was test small serial runs.<br>
> >><br>
> ><br>
> >  I ran with 27 processors and each had 30^3 unknowns.<br>
> ><br>
> >><br>
> >><br>
> >>><br>
> >>> --Junchao Zhang<br>
> >>><br>
> >>> On Fri, Jun 22, 2018 at 3:33 PM, Mark Adams <<a href="mailto:mfadams@lbl.gov">mfadams@lbl.gov</a>> wrote:<br>
> >>><br>
> >>>> We are using KNL (Cori) and hypre is not working when configured<br>
> >>>> with  '--with-openmp=1', even when not using threads (as far as I can tell,<br>
> >>>> I never use threads).<br>
> >>>><br>
> >>>> Hypre is not converging, for instance with an optimized build:<br>
> >>>><br>
> >>>> srun -n 1 ./ex56 -pc_type hypre -ksp_monitor -ksp_converged_reason<br>
> >>>> -ksp_type cg -pc_hypre_type boomeramg<br>
> >>>> OMP: Warning #239: KMP_AFFINITY: granularity=fine will be used.<br>
> >>>>   0 KSP Residual norm 7.366251922394e+22<br>
> >>>>   1 KSP Residual norm 3.676434682799e+22<br>
> >>>> Linear solve did not converge due to DIVERGED_INDEFINITE_PC iterations 2<br>
> >>>><br>
> >>>> Interestingly in debug mode it almost looks good but it is dying:<br>
> >>>><br>
> >>>> 05:09 nid02516 maint *=<br>
> >>>> ~/petsc_install/petsc/src/ksp/<wbr>ksp/examples/tutorials$ make<br>
> >>>> PETSC_DIR=/global/homes/m/<wbr>madams/petsc_install/petsc-<wbr>cori-knl-dbg64-intel-omp<br>
> >>>> PETSC_ARCH="" run<br>
> >>>> srun -n 1 ./ex56 -pc_type hypre -ksp_monitor -ksp_converged_reason<br>
> >>>> -ksp_type cg -pc_hypre_type boomeramg<br>
> >>>> OMP: Warning #239: KMP_AFFINITY: granularity=fine will be used.<br>
> >>>>   0 KSP Residual norm 7.882081712007e+02<br>
> >>>>   1 KSP Residual norm 2.500214073037e+02<br>
> >>>>   2 KSP Residual norm 3.371746347713e+01<br>
> >>>>   3 KSP Residual norm 2.918759396143e+00<br>
> >>>>   4 KSP Residual norm 9.006505495017e-01<br>
> >>>> Linear solve did not converge due to DIVERGED_INDEFINITE_PC iterations 5<br>
> >>>><br>
> >>>> This test runs fine on Xeon nodes. I assume that Hypre has been tested<br>
> >>>> on KNL. GAMG runs fine, of coarse and the initial residual is similar to<br>
> >>>> this debug run.<br>
> >>>><br>
> >>>> Could PETSc be messing up the matrix conversion to hypre<br>
> >>>> '--with-openmp=1' ?<br>
> >>>><br>
> >>>> Any ideas?<br>
> >>>><br>
> >>>> Thanks,<br>
> >>>> Mark<br>
> >>>><br>
> >>>><br>
> >>><br>
> ><br>
> <br>
<br>
</div></div></blockquote></div><br></div>