<div dir="ltr">MUMPS uses MPI_Iprobe on MPI_COMM_WORLD (hard-coded). What MPI implementation have you been using? Is the behavior different with a different implementation?</div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Fri, Dec 21, 2012 at 2:36 AM, Thomas Witkowski <span dir="ltr"><<a href="mailto:thomas.witkowski@tu-dresden.de" target="_blank">thomas.witkowski@tu-dresden.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Okay, I did a similar benchmark now with PETSc's event logging:<br>
<br>
UMFPACK<br>
 16p: Local solve          350 1.0 2.3025e+01 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 63  0  0  0 52  63  0  0  0 51     0<br>
 64p: Local solve          350 1.0 2.3208e+01 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 60  0  0  0 52  60  0  0  0 51     0<br>
256p: Local solve          350 1.0 2.3373e+01 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 49  0  0  0 52  49  0  0  0 51     1<br>
<br>
MUMPS<br>
 16p: Local solve          350 1.0 4.7183e+01 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 75  0  0  0 52  75  0  0  0 51     0<br>
 64p: Local solve          350 1.0 7.1409e+01 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 78  0  0  0 52  78  0  0  0 51     0<br>
256p: Local solve          350 1.0 2.6079e+02 1.1 5.00e+04 1.0 0.0e+00 0.0e+00 7.0e+02 82  0  0  0 52  82  0  0  0 51     0<br>
<br>
<br>
As you see, the local solves with UMFPACK have nearly constant time with increasing number of subdomains. This is what I expect. The I replace UMFPACK by MUMPS and I see increasing time for local solves. In the last columns, UMFPACK has a decreasing value from 63 to 49, while MUMPS's column increases here from 75 to 82. What does this mean?<br>

<br>
Thomas<br>
<br>
Am 21.12.2012 02:19, schrieb Matthew Knepley:<div class="HOEnZb"><div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On Thu, Dec 20, 2012 at 3:39 PM, Thomas Witkowski<br>
<<a href="mailto:Thomas.Witkowski@tu-dresden.de" target="_blank">Thomas.Witkowski@tu-dresden.<u></u>de</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I cannot use the information from log_summary, as I have three different LU<br>
factorizations and solve (local matrices and two hierarchies of coarse<br>
grids). Therefore, I use the following work around to get the timing of the<br>
solve I'm intrested in:<br>
</blockquote>
You misunderstand how to use logging. You just put these thing in<br>
separate stages. Stages represent<br>
parts of the code over which events are aggregated.<br>
<br>
    Matt<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
     MPI::COMM_WORLD.Barrier();<br>
     wtime = MPI::Wtime();<br>
     KSPSolve(*(data->ksp_schur_<u></u>primal_local), tmp_primal, tmp_primal);<br>
     FetiTimings::fetiSolve03 += (MPI::Wtime() - wtime);<br>
<br>
The factorization is done explicitly before with "KSPSetUp", so I can<br>
measure the time for LU factorization. It also does not scale! For 64 cores,<br>
I takes 0.05 seconds, for 1024 cores 1.2 seconds. In all calculations, the<br>
local coarse space matrices defined on four cores have exactly the same<br>
number of rows and exactly the same number of non zero entries. So, from my<br>
point of view, the time should be absolutely constant.<br>
<br>
Thomas<br>
<br>
Zitat von Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" target="_blank">bsmith@mcs.anl.gov</a>>:<br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
   Are you timing ONLY the time to factor and solve the subproblems?  Or<br>
also the time to get the data to the collection of 4 cores at a  time?<br>
<br>
    If you are only using LU for these problems and not elsewhere in  the<br>
code you can get the factorization and time from MatLUFactor()  and<br>
MatSolve() or you can use stages to put this calculation in its  own stage<br>
and use the MatLUFactor() and MatSolve() time from that  stage.<br>
Also look at the load balancing column for the factorization and  solve<br>
stage, it is well balanced?<br>
<br>
    Barry<br>
<br>
On Dec 20, 2012, at 2:16 PM, Thomas Witkowski<br>
<<a href="mailto:thomas.witkowski@tu-dresden.de" target="_blank">thomas.witkowski@tu-dresden.<u></u>de</a>> wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
In my multilevel FETI-DP code, I have localized course matrices,  which<br>
are defined on only a subset of all MPI tasks, typically  between 4 and 64<br>
tasks. The MatAIJ and the KSP objects are both  defined on a MPI<br>
communicator, which is a subset of  MPI::COMM_WORLD. The LU factorization of<br>
the matrices is computed  with either MUMPS or superlu_dist, but both show<br>
some scaling  property I really wonder of: When the overall problem size is<br>
increased, the solve with the LU factorization of the local  matrices does<br>
not scale! But why not? I just increase the number of  local matrices, but<br>
all of them are independent of each other. Some  example: I use 64 cores,<br>
each coarse matrix is spanned by 4 cores  so there are 16 MPI communicators<br>
with 16 coarse space matrices.  The problem need to solve 192 times with the<br>
coarse space systems,  and this takes together 0.09 seconds. Now I increase<br>
the number of  cores to 256, but let the local coarse space be defined again<br>
on  only 4 cores. Again, 192 solutions with these coarse spaces are<br>
required, but now this takes 0.24 seconds. The same for 1024 cores,  and we<br>
are at 1.7 seconds for the local coarse space solver!<br>
<br>
For me, this is a total mystery! Any idea how to explain, debug and<br>
eventually how to resolve this problem?<br>
<br>
Thomas<br>
</blockquote>
<br>
<br>
</blockquote>
<br>
</blockquote>
<br>
<br>
--<br>
What most experimenters take for granted before they begin their<br>
experiments is infinitely more interesting than any results to which<br>
their experiments lead.<br>
-- Norbert Wiener<br>
</blockquote>
<br>
</div></div></blockquote></div><br></div>