<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Thu, Aug 18, 2016 at 7:10 PM, Oxberry, Geoffrey Malcolm <span dir="ltr"><<a href="mailto:oxberry1@llnl.gov" target="_blank">oxberry1@llnl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div style="word-wrap:break-word">
<br>
<div><div><div class="h5">
<blockquote type="cite">
<div>On Aug 18, 2016, at 4:53 PM, Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" target="_blank">bsmith@mcs.anl.gov</a>> wrote:</div>
<br>
<div>
<blockquote type="cite" style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px">
<br>
On Aug 18, 2016, at 6:25 PM, Oxberry, Geoffrey Malcolm <<a href="mailto:oxberry1@llnl.gov" target="_blank">oxberry1@llnl.gov</a>> wrote:<br>
<br>
cc-ing Patrick Farrell for the function space part of this discussion, since he knows more about it than I do, and can speak to his experience re: the Riesz map pull request he made for LMVM.<br>
<br>
<blockquote type="cite">On Aug 18, 2016, at 4:01 PM, Munson, Todd <<a href="mailto:tmunson@mcs.anl.gov" target="_blank">tmunson@mcs.anl.gov</a>> wrote:<br>
<br>
<br>
<blockquote type="cite">
<blockquote type="cite">For now, I am not proposing interface changes, but rather answering the<br>
question of what types of problems do we need to support.  We can<span> </span><br>
discuss actual interfaces later.<br>
<br>
Note: you really only need one multiplier for the each of the<span> </span><br>
constraints (maybe interior-point methods are different).<br>
The sign changes depending on the bound that is active.<br>
</blockquote>
<br>
I don’t believe interior-point methods work this way; they typically maintain estimates of duality multipliers, and inequality constraints aren’t necessarily active until convergence. When these methods converge, complementary slackness holds approximately,
 and I believe a crossover algorithm must be implemented to determine the active constraints, at which point, complementary slackness would be satisfied more exactly.<br>
</blockquote>
<br>
No doubt that internally, you have more multipliers.  What we report<br>
to the user for the multipliers at the solution may be different<span> </span><br>
though.<br>
<br>
Internally the solvers can do lots of stuff.  Most interior point<span> </span><br>
methods, for example, would convert any inequality constraints<span> </span><br>
into equality constraints by adding slack variables and<span> </span><br>
bounding the slacks.  That way they only need bounds on<span> </span><br>
variables.<br>
</blockquote>
<br>
Yes; for instance, KNITRO essentially does this. I’m more concerned about the developer API having consistent semantics. I don’t want to have to remember that I should be flipping signs or assuming implicit zeroes, depending on the method, unless the gains
 in performance are significant.<br>
<br>
<blockquote type="cite"><br>
I believe crossover is only really needed when the problem is<span> </span><br>
degenerate at the solution and you need to make decisions to<span> </span><br>
find an invertible basis matrix.  If you don't care about<br>
the invertible basis matrix, then its not needed.  [One<br>
reason for wanting the invertible basis matrix is for<br>
parametric sensitivities or for branch and bound<br>
for combinatorial problems.]<br>
</blockquote>
<br>
Yes, you are correct; those are the cases I was thinking of specifically. Customers ask for this information in practice to get sensitivity information, or to understand which constraints are really active.<span> </span><br>
<br>
<blockquote type="cite"><br>
In the strict complementarity case, the multiplier for the<span> </span><br>
inactive bounds will go to zero and the slack will remain<br>
bounded below.  Setting the multiplier to zero will only<br>
decrease the norm of the gradient of the Lagrangian.<br>
<br>
<blockquote type="cite">I already do this in SQPTR, although only for the Hilbert space case. Assuming it eventually gets merged, the interfaces need to be revised for norm-reflexive convex Banach spaces so that all inner products become duality pairings.
 I am not sure if ROL does this, but the Heinkenschloss and Ridzal paper cited in the SQPTR comments suggests this generalization can be made.<br>
</blockquote>
<br>
I think doing things in function spaces is more of a change than I<span> </span><br>
want to consider right now.  You would have to start by convincing<br>
the regular PETSc folks to convey the function spaces for their<br>
PDEs…<br>
</blockquote>
<br>
As far as I know, the only information needed in the Hilbert space approach is matrices denoting inner products and norms.<br>
</blockquote>
<br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px">
<span style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;float:none;display:inline!important">  The
 norms are not a problem, especially just the norm you use to decide if you have "converged".  The trickier issue is "the inner products", which ones and what it actually means to switch it from the usual l2 within an algorithm.</span><br style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px">
</div>
</blockquote>
<div><br>
</div>
</div></div><div>Agreed. For Hilbert spaces, there are natural inner products that act like l2; I mainly worked off the TaoGradientNorm function when I built up the API in PR #506. CG can be posed in terms of inner products, and generalized to an abstract inner product
 space setting. Given the current implementation, the “inner product” could always be switched back to the usual l2, possibly at the cost of retarded convergence due to worse conditioning.</div>
<div><br>
</div>
<div>I don’t know how to generalize beyond that setting to, say, an abstract Krylov subspace method and a normed vector space equipped with a duality pairing. I have a tiny bit of intuition, but I defer to people who have more expertise in the area and welcome
 the discussion. References would be helpful, too.</div></div></div></blockquote><div><br></div><div>There is a really excellent short book about this that SIAM just published. Its by Strakos and Marek.</div><div><br></div><div>  Matt</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div><span class=""><blockquote type="cite">
<div>
<blockquote type="cite" style="font-family:Helvetica;font-size:12px;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px">
This information is needed for mesh-independent convergence, and presumably for FEM discretizations, you already have this information in the form of mass matrices. If the information is already there, why not use it? As I understand it, this issue motivated
 Patrick Farrell’s pull request to add Riesz maps to LMVM.<br>
<br>
The problem with using the Euclidean norm is that refining the PDE mesh materially changes the 2-norm of the vector representing the function. If I have a constant function on a mesh, and then I increase resolution by doubling the number of degrees of freedom,
 I have changed the discrete norm by sqrt(2), but I have not changed the function norm at all. Inflating the norm means that more iterations are required to attain convergence for a given absolute tolerance, and this phenomenon is what is observed in practice,
 e.g., with LMVM, if you don’t include function space information (e.g., via the Riesz map).<br>
<br>
To borrow at turn of phrase from Jed, note that if you are solving a problem that doesn’t involve a PDE, then these norms just revert to 2-norms, and if the space of decision variables is really some subset of R^{n}, then norms are equivalent anyway, so you
 only lose a constant factor in changing convergence criteria from infinity-norms (e.g., KNITRO), to 2-norms.<br>
<br>
<blockquote type="cite"><br>
I prefer the simpler discretize then optimize…  <br>
</blockquote>
<br>
This approach is what SQPTR is designed to use; Ridzal’s thesis uses examples in a discretize-then-optimize approach. It is compatible with using function space information, which essentially gives you a natural preconditioner. I am not suggesting deriving
 optimality conditions and then discretizing them, and the method I implemented is not in conflict with your approach.<br>
<br>
<blockquote type="cite"><br>
Todd.</blockquote>
</blockquote>
</div>
</blockquote>
</span></div>
<br>
</div>

</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature">What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>-- Norbert Wiener</div>
</div></div>