<div dir="ltr">are there any safe subsets of -march=whatever? i had it on to take advantage of simd ops on avx512 chips but never looked so close at the exact results.<br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, May 5, 2023 at 4:58 PM Barry Smith <<a href="mailto:bsmith@petsc.dev">bsmith@petsc.dev</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><br><div><br><blockquote type="cite"><div>On May 5, 2023, at 4:45 PM, Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:</div><br><div><div dir="ltr"><div>wow. leaving -O3 and turning off -march=native seems to have made it repeatable. this is on an avx2 cpu if it matters.<br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>out-of-order instructions may be performed thus, two runs may have different order of operations <br><br></div></blockquote><div><br></div><div>this is terrifying if true. the source code path is exactly the same every time but the cpu does different things?<br></div></div></div></blockquote><div><br></div>   Sure. And you will see more of it in the future, not less. It is not so much the CPU does different things each time but that the same things happen in a different order (and different order for floating point arithmetic means different results).<br><blockquote type="cite"><div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, May 5, 2023 at 10:55 AM Barry Smith <<a href="mailto:bsmith@petsc.dev" target="_blank">bsmith@petsc.dev</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div><br></div><div>  Mark,</div><div><br></div>  Thank you.  You do have aggressive optimizations: -O3 -march=native, which means out-of-order instructions may be performed thus, two runs may have different order of operations and possibly different round-off values. <div><br></div><div>  You could try turning off all of this with -O0 for an experiment and see what happens. My guess is that you will see much smaller differences in the residuals. </div><div><br></div><div> Barry</div><div><br><div><br><blockquote type="cite"><div>On May 5, 2023, at 8:11 AM, Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:</div><br><div><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 9:51 PM Barry Smith <<a href="mailto:bsmith@petsc.dev" target="_blank">bsmith@petsc.dev</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div><br></div>  Send configure.log<div><br><div><br><blockquote type="cite"><div>On May 4, 2023, at 5:35 PM, Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:</div><br><div><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Sure, but why only once and why save to disk? Why not just use that 
computed approximate Jacobian at each Newton step to drive the Newton 
solves along for a bunch of time steps?</blockquote><div><br></div><div>Ah I get what you mean. Okay I did three newton steps with the same LHS, with a few repeated manual tests. 3 out of 4 times i got the same exact history. is it in the realm of possibility that a hardware error could cause something this subtle, bad memory bit or something?</div><div><br></div><div>2 runs of 3 newton solves below, ever-so-slightly different.<br></div><div><br><br> 0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.886124328003e+04 <br>    2 KSP Residual norm 2.504664994246e+04 <br>    3 KSP Residual norm 2.104615835161e+04 <br>    4 KSP Residual norm 1.938102896632e+04 <br>    5 KSP Residual norm 1.793774642408e+04 <br>    6 KSP Residual norm 1.671392566980e+04 <br>    7 KSP Residual norm 1.501504103873e+04 <br>    8 KSP Residual norm 1.366362900747e+04 <br>    9 KSP Residual norm 1.240398500429e+04 <br>   10 KSP Residual norm 1.156293733914e+04 <br>   11 KSP Residual norm 1.066296477958e+04 <br>   12 KSP Residual norm 9.835601966950e+03 <br>   13 KSP Residual norm 9.017480191491e+03 <br>   14 KSP Residual norm 8.415336139780e+03 <br>   15 KSP Residual norm 7.807497808435e+03 <br>   16 KSP Residual norm 7.341703768294e+03 <br>   17 KSP Residual norm 6.979298049282e+03 <br>   18 KSP Residual norm 6.521277772081e+03 <br>   19 KSP Residual norm 6.174842408773e+03 <br>   20 KSP Residual norm 5.889819665003e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 1.000525348433e+04 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br>  0 SNES Function norm 1.000525348433e+04 <br>    0 KSP Residual norm 1.000525348433e+04 <br>    1 KSP Residual norm 7.908741564765e+03 <br>    2 KSP Residual norm 6.825263536686e+03 <br>    3 KSP Residual norm 6.224930664968e+03 <br>    4 KSP Residual norm 6.095547180532e+03 <br>    5 KSP Residual norm 5.952968230430e+03 <br>    6 KSP Residual norm 5.861251998116e+03 <br>    7 KSP Residual norm 5.712439327755e+03 <br>    8 KSP Residual norm 5.583056913266e+03 <br>    9 KSP Residual norm 5.461768804626e+03 <br>   10 KSP Residual norm 5.351937611098e+03 <br>   11 KSP Residual norm 5.224288337578e+03 <br>   12 KSP Residual norm 5.129863847081e+03 <br>   13 KSP Residual norm 5.010818237218e+03 <br>   14 KSP Residual norm 4.907162936199e+03 <br>   15 KSP Residual norm 4.789564773955e+03 <br>   16 KSP Residual norm 4.695173370720e+03 <br>   17 KSP Residual norm 4.584070962171e+03 <br>   18 KSP Residual norm 4.483061424742e+03 <br>   19 KSP Residual norm 4.373384070745e+03 <br>   20 KSP Residual norm 4.260704657592e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 4.662386014882e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br>  0 SNES Function norm 4.662386014882e+03 <br>    0 KSP Residual norm 4.662386014882e+03 <br>    1 KSP Residual norm 4.408316259864e+03 <br>    2 KSP Residual norm 4.184867769829e+03 <br>    3 KSP Residual norm 4.079091244351e+03 <br>    4 KSP Residual norm 4.009247390166e+03 <br>    5 KSP Residual norm 3.928417371428e+03 <br>    6 KSP Residual norm 3.865152075780e+03 <br>    7 KSP Residual norm 3.795606446033e+03 <br>    8 KSP Residual norm 3.735294554158e+03 <br>    9 KSP Residual norm 3.674393726487e+03 <br>   10 KSP Residual norm 3.617795166786e+03 <br>   11 KSP Residual norm 3.563807982274e+03 <br>   12 KSP Residual norm 3.512269444921e+03 <br>   13 KSP Residual norm 3.455110223236e+03 <br>   14 KSP Residual norm 3.407141247372e+03 <br>   15 KSP Residual norm 3.356562415982e+03 <br>   16 KSP Residual norm 3.312720047685e+03 <br>   17 KSP Residual norm 3.263690150810e+03 <br>   18 KSP Residual norm 3.219359862444e+03 <br>   19 KSP Residual norm 3.173500955995e+03 <br>   20 KSP Residual norm 3.127528790155e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 3.186752172556e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br><br><br><br>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.886124328003e+04 <br>    2 KSP Residual norm 2.504664994221e+04 <br>    3 KSP Residual norm 2.104615835130e+04 <br>    4 KSP Residual norm 1.938102896610e+04 <br>    5 KSP Residual norm 1.793774642406e+04 <br>    6 KSP Residual norm 1.671392566981e+04 <br>    7 KSP Residual norm 1.501504103854e+04 <br>    8 KSP Residual norm 1.366362900726e+04 <br>    9 KSP Residual norm 1.240398500414e+04 <br>   10 KSP Residual norm 1.156293733914e+04 <br>   11 KSP Residual norm 1.066296477972e+04 <br>   12 KSP Residual norm 9.835601967036e+03 <br>   13 KSP Residual norm 9.017480191500e+03 <br>   14 KSP Residual norm 8.415336139732e+03 <br>   15 KSP Residual norm 7.807497808414e+03 <br>   16 KSP Residual norm 7.341703768300e+03 <br>   17 KSP Residual norm 6.979298049244e+03 <br>   18 KSP Residual norm 6.521277772042e+03 <br>   19 KSP Residual norm 6.174842408713e+03 <br>   20 KSP Residual norm 5.889819664983e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 1.000525348435e+04 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br>  0 SNES Function norm 1.000525348435e+04 <br>    0 KSP Residual norm 1.000525348435e+04 <br>    1 KSP Residual norm 7.908741565645e+03 <br>    2 KSP Residual norm 6.825263536988e+03 <br>    3 KSP Residual norm 6.224930664967e+03 <br>    4 KSP Residual norm 6.095547180474e+03 <br>    5 KSP Residual norm 5.952968230397e+03 <br>    6 KSP Residual norm 5.861251998127e+03 <br>    7 KSP Residual norm 5.712439327726e+03 <br>    8 KSP Residual norm 5.583056913167e+03 <br>    9 KSP Residual norm 5.461768804526e+03 <br>   10 KSP Residual norm 5.351937611030e+03 <br>   11 KSP Residual norm 5.224288337536e+03 <br>   12 KSP Residual norm 5.129863847028e+03 <br>   13 KSP Residual norm 5.010818237161e+03 <br>   14 KSP Residual norm 4.907162936143e+03 <br>   15 KSP Residual norm 4.789564773923e+03 <br>   16 KSP Residual norm 4.695173370709e+03 <br>   17 KSP Residual norm 4.584070962145e+03 <br>   18 KSP Residual norm 4.483061424714e+03 <br>   19 KSP Residual norm 4.373384070713e+03 <br>   20 KSP Residual norm 4.260704657576e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 4.662386014874e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br>  0 SNES Function norm 4.662386014874e+03 <br>    0 KSP Residual norm 4.662386014874e+03 <br>    1 KSP Residual norm 4.408316259834e+03 <br>    2 KSP Residual norm 4.184867769891e+03 <br>    3 KSP Residual norm 4.079091244367e+03 <br>    4 KSP Residual norm 4.009247390184e+03 <br>    5 KSP Residual norm 3.928417371457e+03 <br>    6 KSP Residual norm 3.865152075802e+03 <br>    7 KSP Residual norm 3.795606446041e+03 <br>    8 KSP Residual norm 3.735294554160e+03 <br>    9 KSP Residual norm 3.674393726485e+03 <br>   10 KSP Residual norm 3.617795166775e+03 <br>   11 KSP Residual norm 3.563807982249e+03 <br>   12 KSP Residual norm 3.512269444873e+03 <br>   13 KSP Residual norm 3.455110223193e+03 <br>   14 KSP Residual norm 3.407141247334e+03 <br>   15 KSP Residual norm 3.356562415949e+03 <br>   16 KSP Residual norm 3.312720047652e+03 <br>   17 KSP Residual norm 3.263690150782e+03 <br>   18 KSP Residual norm 3.219359862425e+03 <br>   19 KSP Residual norm 3.173500955997e+03 <br>   20 KSP Residual norm 3.127528790156e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix = precond matrix:<br>  Mat Object: 1 MPI process<br>    type: seqbaij<br>    rows=16384, cols=16384, bs=16<br>    total: nonzeros=1277952, allocated nonzeros=1277952<br>    total number of mallocs used during MatSetValues calls=0<br>        block size is 16<br>  1 SNES Function norm 3.186752172503e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=2<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix = precond matrix:<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 5:22 PM Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">On Thu, May 4, 2023 at 5:03 PM Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"> Do you get different results (in different runs) without  -snes_mf_operator? So just using an explicit matrix?</blockquote><div><br></div><div>Unfortunately I don't have an explicit matrix available for this, hence the MFFD/JFNK.<br></div></div></blockquote><div><br></div><div>I don't mean the actual matrix, I mean a representative matrix.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><br></div><div>  (Note: I am not convinced there is even a problem 
and think it may be simply different order of floating point operations 
in different runs.)</div></blockquote><div><br></div><div>I'm not convinced either, but running explicit RK for 10,000 iterations i get exactly the same results every time so i'm fairly confident it's not the residual evaluation.<br></div><div>How would there be a different order of floating point ops in different runs in serial?<br><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>No, I mean without -snes_mf_* (as Barry says), so we are just 
running that solver with a sparse matrix. This would give me confidence</div><div>that nothing in the solver is variable.<br><br></div></blockquote><div>I could do the sparse finite difference jacobian once, save it to disk, and then use that system each time.</div></div></div></div></blockquote><div><br></div><div>Yes. That would work.</div><div><br></div><div>  Thanks,</div><div><br></div><div>     Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 4:57 PM Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">On Thu, May 4, 2023 at 4:44 PM Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>Is your code valgrind clean?</div></blockquote><div><br></div><div>Yes, I also initialize all allocations with NaNs to be sure I'm not using anything uninitialized. <br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><br>We can try and test this. Replace your MatMFFD with an actual matrix and run. Do you see any variability?</div></blockquote><div><br></div><div>I think I did what you're asking. I have -snes_mf_operator set, and then SNESSetJacobian(snes, diag_ones, diag_ones, NULL, NULL) where diag_ones is a matrix with ones on the diagonal. Two runs below, still with differences but sometimes identical.</div></div></blockquote><div><br></div><div>No, I mean without -snes_mf_* (as Barry says), so we are just running that solver with a sparse matrix. This would give me confidence</div><div>that nothing in the solver is variable.</div><div><br></div><div>  Thanks,</div><div><br></div><div>     Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.871734444536e+04 <br>    2 KSP Residual norm 2.490276930242e+04 <br>    3 KSP Residual norm 2.131675872968e+04 <br>    4 KSP Residual norm 1.973129814235e+04 <br>    5 KSP Residual norm 1.832377856317e+04 <br>    6 KSP Residual norm 1.716783617436e+04 <br>    7 KSP Residual norm 1.583963149542e+04 <br>    8 KSP Residual norm 1.482272170304e+04 <br>    9 KSP Residual norm 1.380312106742e+04 <br>   10 KSP Residual norm 1.297793480658e+04 <br>   11 KSP Residual norm 1.208599123244e+04 <br>   12 KSP Residual norm 1.137345655227e+04 <br>   13 KSP Residual norm 1.059676909366e+04 <br>   14 KSP Residual norm 1.003823862398e+04 <br>   15 KSP Residual norm 9.425879221354e+03 <br>   16 KSP Residual norm 8.954805890038e+03 <br>   17 KSP Residual norm 8.592372470456e+03 <br>   18 KSP Residual norm 8.060707175821e+03 <br>   19 KSP Residual norm 7.782057728723e+03 <br>   20 KSP Residual norm 7.449686095424e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix followed by preconditioner matrix:<br>  Mat Object: 1 MPI process<br>    type: mffd<br>    rows=16384, cols=16384<br>      Matrix-free approximation:<br>        err=1.49012e-08 (relative error in function evaluation)<br>        Using wp compute h routine<br>            Does not compute normU<br>  Mat Object: 1 MPI process<br>    type: seqaij<br>    rows=16384, cols=16384<br>    total: nonzeros=16384, allocated nonzeros=16384<br>    total number of mallocs used during MatSetValues calls=0<br>      not using I-node routines<br>  1 SNES Function norm 1.085015646971e+04 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=23<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is applied matrix-free with differencing<br>  Preconditioning Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix followed by preconditioner matrix:<br>    Mat Object: 1 MPI process<br>      type: mffd<br>      rows=16384, cols=16384<br>        Matrix-free approximation:<br>          err=1.49012e-08 (relative error in function evaluation)<br>          Using wp compute h routine<br>              Does not compute normU<br>    Mat Object: 1 MPI process<br>      type: seqaij<br>      rows=16384, cols=16384<br>      total: nonzeros=16384, allocated nonzeros=16384<br>      total number of mallocs used during MatSetValues calls=0<br>        not using I-node routines</div><div><br></div>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.871734444536e+04 <br>    2 KSP Residual norm 2.490276931041e+04 <br>    3 KSP Residual norm 2.131675873776e+04 <br>    4 KSP Residual norm 1.973129814908e+04 <br>    5 KSP Residual norm 1.832377852186e+04 <br>    6 KSP Residual norm 1.716783608174e+04 <br>    7 KSP Residual norm 1.583963128956e+04 <br>    8 KSP Residual norm 1.482272160069e+04 <br>    9 KSP Residual norm 1.380312087005e+04 <br>   10 KSP Residual norm 1.297793458796e+04 <br>   11 KSP Residual norm 1.208599115602e+04 <br>   12 KSP Residual norm 1.137345657533e+04 <br>   13 KSP Residual norm 1.059676906197e+04 <br>   14 KSP Residual norm 1.003823857515e+04 <br>   15 KSP Residual norm 9.425879177747e+03 <br>   16 KSP Residual norm 8.954805850825e+03 <br>   17 KSP Residual norm 8.592372413320e+03 <br>   18 KSP Residual norm 8.060706994110e+03 <br>   19 KSP Residual norm 7.782057560782e+03 <br>   20 KSP Residual norm 7.449686034356e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>KSP Object: 1 MPI process<br>  type: gmres<br>    restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>    happy breakdown tolerance 1e-30<br>  maximum iterations=20, initial guess is zero<br>  tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>  left preconditioning<br>  using PRECONDITIONED norm type for convergence test<br>PC Object: 1 MPI process<br>  type: none<br>  linear system matrix followed by preconditioner matrix:<br>  Mat Object: 1 MPI process<br>    type: mffd<br>    rows=16384, cols=16384<br>      Matrix-free approximation:<br>        err=1.49012e-08 (relative error in function evaluation)<br>        Using wp compute h routine<br>            Does not compute normU<br>  Mat Object: 1 MPI process<br>    type: seqaij<br>    rows=16384, cols=16384<br>    total: nonzeros=16384, allocated nonzeros=16384<br>    total number of mallocs used during MatSetValues calls=0<br>      not using I-node routines<br>  1 SNES Function norm 1.085015821006e+04 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1<br>SNES Object: 1 MPI process<br>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=23<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is applied matrix-free with differencing<br>  Preconditioning Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: none<br>    linear system matrix followed by preconditioner matrix:<br>    Mat Object: 1 MPI process<br>      type: mffd<br>      rows=16384, cols=16384<br>        Matrix-free approximation:<br>          err=1.49012e-08 (relative error in function evaluation)<br>          Using wp compute h routine<br>              Does not compute normU<br>    Mat Object: 1 MPI process<br>      type: seqaij<br>      rows=16384, cols=16384<br>      total: nonzeros=16384, allocated nonzeros=16384<br>      total number of mallocs used during MatSetValues calls=0<br>        not using I-node routines<br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 10:10 AM Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">On Thu, May 4, 2023 at 8:54 AM Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div>Try -pc_type none. </div></blockquote><div><br></div><div></div><div>With -pc_type none the 0 KSP residual looks identical. But *sometimes* it's producing exactly the same history and others it's gradually changing.  I'm reasonably confident my residual evaluation has no randomness, see info after the petsc output.</div></div></div></blockquote><div><br></div><div>We can try and test this. Replace your MatMFFD with an actual matrix and run. Do you see any variability?</div><div><br></div><div>If not, then it could be your routine, or it could be MatMFFD. So run a few with -snes_view, and we can see if the</div><div>"w" parameter changes.</div><div><br></div><div>  Thanks,</div><div><br></div><div>     Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div>solve history 1:<br></div><div><br></div><div>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.871734444536e+04 <br>    2 KSP Residual norm 2.490276931041e+04 <br></div><div>...</div><div>   20 KSP Residual norm 7.449686034356e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>  1 SNES Function norm 1.085015821006e+04 <br></div><div><br></div><div>solve history 2, identical to 1:<br></div><div><br></div><div>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.871734444536e+04 <br>    2 KSP Residual norm 2.490276931041e+04 <br></div><div>...</div><div>   20 KSP Residual norm 7.449686034356e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>  1 SNES Function norm 1.085015821006e+04 <br></div><div><br></div><div>solve history 3, identical KSP at 0 and 1, slight change at 2, growing difference to the end:</div><div>  0 SNES Function norm 3.424003312857e+04 <br>    0 KSP Residual norm 3.424003312857e+04 <br>    1 KSP Residual norm 2.871734444536e+04 <br>    2 KSP Residual norm 2.490276930242e+04 <br></div><div>... <br></div><div> 20 KSP Residual norm 7.449686095424e+03 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>  1 SNES Function norm 1.085015646971e+04 <br></div><div><br></div><div><div><br></div><div>Ths is using a standard explicit 3-stage Runge-Kutta smoother for 10 iterations, so 30 calls of the same residual evaluation, identical residuals every time</div><div><br></div><div>run 1:<br></div><div><br></div><div># iteration            rho                 rhou                rhov                rhoE                abs_res             rel_res             umin                vmax                vmin                elapsed_time      <br>#                                                                                                                                                                                                                  <br>          1.00000e+00  1.086860616292e+00  2.782316758416e+02  4.482867643761e+00  2.993435920340e+02         2.04353e+02         1.00000e+00        -8.23945e-15        -6.15326e-15        -1.35563e-14         6.34834e-01<br>          2.00000e+00  2.310547487017e+00  1.079059352425e+02  3.958323921837e+00  5.058927165686e+02         2.58647e+02         1.26568e+00        -1.02539e-14        -9.35368e-15        -1.69925e-14         6.40063e-01<br>          3.00000e+00  2.361005867444e+00  5.706213331683e+01  6.130016323357e+00  4.688968362579e+02         2.36201e+02         1.15585e+00        -1.19370e-14        -1.15216e-14        -1.59733e-14         6.45166e-01<br>          4.00000e+00  2.167518999963e+00  3.757541401594e+01  6.313917437428e+00  4.054310291628e+02         2.03612e+02         9.96372e-01        -1.81831e-14        -1.28312e-14        -1.46238e-14         6.50494e-01<br>          5.00000e+00  1.941443738676e+00  2.884190334049e+01  6.237106158479e+00  3.539201037156e+02         1.77577e+02         8.68970e-01         3.56633e-14        -8.74089e-15        -1.06666e-14         6.55656e-01<br>          6.00000e+00  1.736947124693e+00  2.429485695670e+01  5.996962200407e+00  3.148280178142e+02         1.57913e+02         7.72745e-01        -8.98634e-14        -2.41152e-14        -1.39713e-14         6.60872e-01<br>          7.00000e+00  1.564153212635e+00  2.149609219810e+01  5.786910705204e+00  2.848717011033e+02         1.42872e+02         6.99144e-01        -2.95352e-13        -2.48158e-14        -2.39351e-14         6.66041e-01<br>          8.00000e+00  1.419280815384e+00  1.950619804089e+01  5.627281158306e+00  2.606623371229e+02         1.30728e+02         6.39715e-01         8.98941e-13         1.09674e-13         3.78905e-14         6.71316e-01<br>          9.00000e+00  1.296115915975e+00  1.794843530745e+01  5.514933264437e+00  2.401524522393e+02         1.20444e+02         5.89394e-01         1.70717e-12         1.38762e-14         1.09825e-13         6.76447e-01<br>          1.00000e+01  1.189639693918e+00  1.665381754953e+01  5.433183087037e+00  2.222572900473e+02         1.11475e+02         5.45501e-01        -4.22462e-12        -7.15206e-13        -2.28736e-13         6.81716e-01</div><div><br></div><div>run N:</div><div><br></div><div><br>#                                                                                                                                                                                                                  <br># iteration            rho                 rhou                rhov                rhoE                abs_res             rel_res             umin                vmax                vmin                elapsed_time      <br>#                                                                                                                                                                                                                  <br>          1.00000e+00  1.086860616292e+00  2.782316758416e+02  4.482867643761e+00  2.993435920340e+02         2.04353e+02         1.00000e+00        -8.23945e-15        -6.15326e-15        -1.35563e-14         6.23316e-01<br>          2.00000e+00  2.310547487017e+00  1.079059352425e+02  3.958323921837e+00  5.058927165686e+02         2.58647e+02         1.26568e+00        -1.02539e-14        -9.35368e-15        -1.69925e-14         6.28510e-01<br>          3.00000e+00  2.361005867444e+00  5.706213331683e+01  6.130016323357e+00  4.688968362579e+02         2.36201e+02         1.15585e+00        -1.19370e-14        -1.15216e-14        -1.59733e-14         6.33558e-01<br>          4.00000e+00  2.167518999963e+00  3.757541401594e+01  6.313917437428e+00  4.054310291628e+02         2.03612e+02         9.96372e-01        -1.81831e-14        -1.28312e-14        -1.46238e-14         6.38773e-01<br>          5.00000e+00  1.941443738676e+00  2.884190334049e+01  6.237106158479e+00  3.539201037156e+02         1.77577e+02         8.68970e-01         3.56633e-14        -8.74089e-15        -1.06666e-14         6.43887e-01<br>          6.00000e+00  1.736947124693e+00  2.429485695670e+01  5.996962200407e+00  3.148280178142e+02         1.57913e+02         7.72745e-01        -8.98634e-14        -2.41152e-14        -1.39713e-14         6.49073e-01<br>          7.00000e+00  1.564153212635e+00  2.149609219810e+01  5.786910705204e+00  2.848717011033e+02         1.42872e+02         6.99144e-01        -2.95352e-13        -2.48158e-14        -2.39351e-14         6.54167e-01<br>          8.00000e+00  1.419280815384e+00  1.950619804089e+01  5.627281158306e+00  2.606623371229e+02         1.30728e+02         6.39715e-01         8.98941e-13         1.09674e-13         3.78905e-14         6.59394e-01<br>          9.00000e+00  1.296115915975e+00  1.794843530745e+01  5.514933264437e+00  2.401524522393e+02         1.20444e+02         5.89394e-01         1.70717e-12         1.38762e-14         1.09825e-13         6.64516e-01<br>          1.00000e+01  1.189639693918e+00  1.665381754953e+01  5.433183087037e+00  2.222572900473e+02         1.11475e+02         5.45501e-01        -4.22462e-12        -7.15206e-13        -2.28736e-13         6.69677e-01<br></div><div><br></div><div><br></div><div><br></div><div><br></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 8:41 AM Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">ASM is just the sub PC with one proc but gets weaker with more procs unless you use jacobi. (maybe I am missing something).</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 8:31 AM Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div> Please send the output of -snes_view. <br></div></blockquote><div>pasted below. anything stand out?</div><br><div><br></div><div>SNES Object: 1 MPI process</div>  type: newtonls<br>  maximum iterations=1, maximum function evaluations=-1<br>  tolerances: relative=0.1, absolute=1e-15, solution=1e-15<br>  total number of linear solver iterations=20<br>  total number of function evaluations=22<br>  norm schedule ALWAYS<br>  Jacobian is never rebuilt<br>  Jacobian is applied matrix-free with differencing<br>  Preconditioning Jacobian is built using finite differences with coloring<br>  SNESLineSearch Object: 1 MPI process<br>    type: basic<br>    maxstep=1.000000e+08, minlambda=1.000000e-12<br>    tolerances: relative=1.000000e-08, absolute=1.000000e-15, lambda=1.000000e-08<br>    maximum iterations=40<br>  KSP Object: 1 MPI process<br>    type: gmres<br>      restart=30, using Classical (unmodified) Gram-Schmidt Orthogonalization with no iterative refinement<br>      happy breakdown tolerance 1e-30<br>    maximum iterations=20, initial guess is zero<br>    tolerances:  relative=0.1, absolute=1e-15, divergence=10.<br>    left preconditioning<br>    using PRECONDITIONED norm type for convergence test<br>  PC Object: 1 MPI process<br>    type: asm<br>      total subdomain blocks = 1, amount of overlap = 0<br>      restriction/interpolation type - RESTRICT<br>      Local solver information for first block is in the following KSP and PC objects on rank 0:<br>      Use -ksp_view ::ascii_info_detail to display information for all blocks<br>    KSP Object: (sub_) 1 MPI process<br>      type: preonly<br>      maximum iterations=10000, initial guess is zero<br>      tolerances:  relative=1e-05, absolute=1e-50, divergence=10000.<br>      left preconditioning<br>      using NONE norm type for convergence test<br>    PC Object: (sub_) 1 MPI process<br>      type: ilu<br>        out-of-place factorization<br>        0 levels of fill<br>        tolerance for zero pivot 2.22045e-14<br>        matrix ordering: natural<br>        factor fill ratio given 1., needed 1.<br>          Factored matrix follows:<br>            Mat Object: (sub_) 1 MPI process<br>              type: seqbaij<br>              rows=16384, cols=16384, bs=16<br>              package used to perform factorization: petsc<br>              total: nonzeros=1277952, allocated nonzeros=1277952<br>                  block size is 16<br>      linear system matrix = precond matrix:<br>      Mat Object: (sub_) 1 MPI process<br>        type: seqbaij<br>        rows=16384, cols=16384, bs=16<br>        total: nonzeros=1277952, allocated nonzeros=1277952<br>        total number of mallocs used during MatSetValues calls=0<br>            block size is 16<br>    linear system matrix followed by preconditioner matrix:<br>    Mat Object: 1 MPI process<br>      type: mffd<br>      rows=16384, cols=16384<br>        Matrix-free approximation:<br>          err=1.49012e-08 (relative error in function evaluation)<br>          Using wp compute h routine<br>              Does not compute normU<br>    Mat Object: 1 MPI process<br>      type: seqbaij<br>      rows=16384, cols=16384, bs=16<br>      total: nonzeros=1277952, allocated nonzeros=1277952<br>      total number of mallocs used during MatSetValues calls=0<br>          block size is 16<br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 8:30 AM Mark Adams <<a href="mailto:mfadams@lbl.gov" target="_blank">mfadams@lbl.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">If you are using MG what is the coarse grid solver?<br><div>-snes_view might give you that.<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, May 4, 2023 at 8:25 AM Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">On Thu, May 4, 2023 at 8:21 AM Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Do they start very similarly and then slowly drift further apart? </blockquote><div><br></div><div>Yes, this. I take it this sounds familiar?<br></div><div><br></div><div>See these two examples with 20 fixed iterations pasted at the end. The difference for one solve is slight (final SNES norm is identical to 5 digits), but in the context I'm using it in (repeated applications to solve a steady state multigrid problem, though here just one level) the differences add up such that I might reach global convergence in 35 iterations or 38. It's not the end of the world, but I was expecting that with -np 1 these would be identical and I'm not sure where the root cause would be.</div></div></div></div></blockquote><div><br></div><div>The initial KSP residual is different, so its the PC. Please send the output of -snes_view. If your ASM is using direct factorization, then it</div><div>could be randomness in whatever LU you are using.</div><div><br></div><div>  Thanks,</div><div><br></div><div>    Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>   0 SNES Function norm 2.801842107848e+04 <br>    0 KSP Residual norm 4.045639499595e+01 <br>    1 KSP Residual norm 1.917999809040e+01 <br>    2 KSP Residual norm 1.616048521958e+01 <br></div><div>[...]</div><div>   19 KSP Residual norm 8.788043518111e-01 <br>   20 KSP Residual norm 6.570851270214e-01 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>  1 SNES Function norm 1.801309983345e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1</div><div><br></div><div><br></div><div>Same system, identical initial 0 SNES norm, 0 KSP is slightly different<br></div><div></div><div><br></div><div>  0 SNES Function norm 2.801842107848e+04 <br>    0 KSP Residual norm 4.045639473002e+01 <br>    1 KSP Residual norm 1.917999883034e+01 <br>    2 KSP Residual norm 1.616048572016e+01 <br></div><div>[...]</div><div>   19 KSP Residual norm 8.788046348957e-01 <br>   20 KSP Residual norm 6.570859588610e-01 <br>  Linear solve converged due to CONVERGED_ITS iterations 20<br>  1 SNES Function norm 1.801311320322e+03 <br>Nonlinear solve converged due to CONVERGED_ITS iterations 1</div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, May 3, 2023 at 11:05 PM Barry Smith <<a href="mailto:bsmith@petsc.dev" target="_blank">bsmith@petsc.dev</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div><br></div>  Do they start very similarly and then slowly drift further apart? That is the first couple of KSP iterations they are almost identical but then for each iteration get a bit further. Similar for the SNES iterations, starting close and then for more iterations and more solves they start moving apart. Or do they suddenly jump to be very different? You can run with -snes_monitor -ksp_monitor <br><div><br><blockquote type="cite"><div>On May 3, 2023, at 9:07 PM, Mark Lohry <<a href="mailto:mlohry@gmail.com" target="_blank">mlohry@gmail.com</a>> wrote:</div><br><div><div dir="auto"><div>This is on a single MPI rank. I haven't checked the coloring, was just guessing there. But the solutions/residuals are slightly different from run to run.</div><div dir="auto"><br></div><div dir="auto">Fair to say that for serial JFNK/asm ilu0/gmres we should expect bitwise identical results?</div><div dir="auto"><br></div><div dir="auto"><br><div class="gmail_quote" dir="auto"><div dir="ltr" class="gmail_attr">On Wed, May 3, 2023, 8:50 PM Barry Smith <<a href="mailto:bsmith@petsc.dev" target="_blank">bsmith@petsc.dev</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
  No, the coloring should be identical every time. Do you see differences with 1 MPI rank? (Or much smaller ones?).<br>
<br>
<br>
<br>
> On May 3, 2023, at 8:42 PM, Mark Lohry <<a href="mailto:mlohry@gmail.com" rel="noreferrer" target="_blank">mlohry@gmail.com</a>> wrote:<br>
> <br>
> I'm running multiple iterations of newtonls with an MFFD/JFNK nonlinear solver where I give it the sparsity. PC asm, KSP gmres, with SNESSetLagJacobian -2 (compute once and then frozen jacobian).<br>
> <br>
> I'm seeing slight (<1%) but nonzero differences in residuals from run to run. I'm wondering where randomness might enter here -- does the jacobian coloring use a random seed?<br>
<br>
</blockquote></div></div></div>
</div></blockquote></div><br></div></blockquote></div>
</blockquote></div><br clear="all"><div><br></div><span>-- </span><br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div>
</blockquote></div><br clear="all"><div><br></div><span>-- </span><br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div><br clear="all"><div><br></div><span>-- </span><br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>
</blockquote></div>
</blockquote></div><br clear="all"><div><br></div><span>-- </span><br><div dir="ltr"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div><div><br></div><div><a href="http://www.cse.buffalo.edu/~knepley/" target="_blank">https://www.cse.buffalo.edu/~knepley/</a><br></div></div></div></div></div></div></div></div>
</blockquote></div>
</div></blockquote></div><br></div></div></blockquote></div>
<span id="m_-3299632976333371619m_-5775815640962563696cid:f_lhaim6xl0"><configure.log></span></div></blockquote></div><br></div></div></blockquote></div>
</div></blockquote></div><br></div></blockquote></div>