<div dir="ltr">I don't seem able to read this matrix file because it appears to be corrupt. Our mail programs might be messing with it. Can you encode it as binary or provide it some other way?<div><br></div><div style>
Can you compare timing with all the other ranks dropped out. That is, instead of</div><div style><br></div><div>MPI_Comm_split(MPI_COMM_WORLD, rank / 4, rank, &coarseMpiComm);<br></div><div><br></div><div style>have all procs with rank >= 4 pass MPI_UNDEFINED and then skip over the solve itself (they'll get MPI_COMM_NULL returned).</div>
</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Dec 21, 2012 at 3:05 PM, Thomas Witkowski <span dir="ltr"><<a href="mailto:Thomas.Witkowski@tu-dresden.de" target="_blank">Thomas.Witkowski@tu-dresden.de</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">So, here it is. Just compile and run with<br>
<br>
mpiexec -np 64 ./ex10 -ksp_type preonly -pc_type lu -pc_factor_mat_solver_package superlu_dist -log_summary<br>
<br>
64 cores: 0.09 seconds for solving<br>
1024 cores: 2.6 seconds for solving<div><div class="h5"><br>
<br>
Thomas<br>
<br>
<br>
Zitat von Jed Brown <<a href="mailto:jedbrown@mcs.anl.gov" target="_blank">jedbrown@mcs.anl.gov</a>>:<br>
<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
Can you reproduce this in a simpler environment so that we can report it?<br>
As I understand your statement, it sounds like you could reproduce by<br>
changing src/ksp/ksp/examples/<u></u>tutorials/ex10.c to create a subcomm of size<br>
4 and the using that everywhere, then compare log_summary running on 4<br>
cores to running on more (despite everything really being independent)<br>
<br>
It would also be worth using an MPI profiler to see if it's really spending<br>
a lot of time in MPI_Iprobe. Since SuperLU_DIST does not use MPI_Iprobe, it<br>
may be something else.<br>
<br>
On Fri, Dec 21, 2012 at 8:51 AM, Thomas Witkowski <<br>
<a href="mailto:Thomas.Witkowski@tu-dresden.de" target="_blank">Thomas.Witkowski@tu-dresden.de</a><u></u>> wrote:<br>
<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
I use a modified MPICH version. On the system I use for these benchmarks I<br>
cannot use another MPI library.<br>
<br>
I'm not fixed to MUMPS. Superlu_dist, for example, works also perfectly<br>
for this. But there is still the following problem I cannot solve: When I<br>
increase the number of coarse space matrices, there seems to be no scaling<br>
direct solver for this. Just to summaries:<br>
- one coarse space matrix is created always by one "cluster" consisting of<br>
four subdomanins/MPI tasks<br>
- the four tasks are always local to one node, thus inter-node network<br>
communication is not required for computing factorization and solve<br>
- independent of the number of cluster, the coarse space matrices are the<br>
same, have the same number of rows, nnz structure but possibly different<br>
values<br>
- there is NO load unbalancing<br>
- the matrices must be factorized and there are a lot of solves (> 100)<br>
with them<br>
<br>
It should be pretty clear, that computing LU factorization and solving<br>
with it should scale perfectly. But at the moment, all direct solver I<br>
tried (mumps, superlu_dist, pastix) are not able to scale. The loos of<br>
scale is really worse, as you can see from the numbers I send before.<br>
<br>
Any ideas? Suggestions? Without a scaling solver method for these kind of<br>
systems, my multilevel FETI-DP code is just more or less a joke, only some<br>
orders of magnitude slower than standard FETI-DP method :)<br>
<br>
Thomas<br>
<br>
Zitat von Jed Brown <<a href="mailto:jedbrown@mcs.anl.gov" target="_blank">jedbrown@mcs.anl.gov</a>>:<br>
<br>
 MUMPS uses MPI_Iprobe on MPI_COMM_WORLD (hard-coded). What MPI<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
implementation have you been using? Is the behavior different with a<br>
different implementation?<br>
<br>
<br>
On Fri, Dec 21, 2012 at 2:36 AM, Thomas Witkowski <<br>
</div></div><div><div class="h5"><a href="mailto:thomas.witkowski@tu-dresden.de" target="_blank">thomas.witkowski@tu-dresden.de</a><u></u>**> wrote:<br>
<br>
 Okay, I did a similar benchmark now with PETSc's event logging:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
<br>
UMFPACK<br>
 16p: Local solve          350 1.0 2.3025e+01 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 63  0  0  0 52  63  0  0  0 51     0<br>
 64p: Local solve          350 1.0 2.3208e+01 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 60  0  0  0 52  60  0  0  0 51     0<br>
256p: Local solve          350 1.0 2.3373e+01 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 49  0  0  0 52  49  0  0  0 51     1<br>
<br>
MUMPS<br>
 16p: Local solve          350 1.0 4.7183e+01 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 75  0  0  0 52  75  0  0  0 51     0<br>
 64p: Local solve          350 1.0 7.1409e+01 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 78  0  0  0 52  78  0  0  0 51     0<br>
256p: Local solve          350 1.0 2.6079e+02 1.1 5.00e+04 1.0 0.0e+00<br>
0.0e+00 7.0e+02 82  0  0  0 52  82  0  0  0 51     0<br>
<br>
<br>
As you see, the local solves with UMFPACK have nearly constant time with<br>
increasing number of subdomains. This is what I expect. The I replace<br>
UMFPACK by MUMPS and I see increasing time for local solves. In the last<br>
columns, UMFPACK has a decreasing value from 63 to 49, while MUMPS's<br>
column<br>
increases here from 75 to 82. What does this mean?<br>
<br>
Thomas<br>
<br>
Am 21.12.2012 02:19, schrieb Matthew Knepley:<br>
<br>
 On Thu, Dec 20, 2012 at 3:39 PM, Thomas Witkowski<br>
<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<Thomas.Witkowski@tu-dresden.*<u></u>***de  <Thomas.Witkowski@tu-dresden.*<u></u>*de<<a href="mailto:Thomas.Witkowski@tu-dresden.de" target="_blank">Thomas.Witkowski@tu-<u></u>dresden.de</a>><div class="im"><br>
>><br>
<br>
wrote:<br>
<br>
 I cannot use the information from log_summary, as I have three<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
different<br>
LU<br>
factorizations and solve (local matrices and two hierarchies of coarse<br>
grids). Therefore, I use the following work around to get the timing of<br>
the<br>
solve I'm intrested in:<br>
<br>
 You misunderstand how to use logging. You just put these thing in<br>
</blockquote>
separate stages. Stages represent<br>
parts of the code over which events are aggregated.<br>
<br>
    Matt<br>
<br>
      MPI::COMM_WORLD.Barrier();<br>
<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
     wtime = MPI::Wtime();<br>
     KSPSolve(*(data->ksp_schur_***<u></u>*primal_local), tmp_primal,<div><div class="h5"><br>
<br>
tmp_primal);<br>
     FetiTimings::fetiSolve03 += (MPI::Wtime() - wtime);<br>
<br>
The factorization is done explicitly before with "KSPSetUp", so I can<br>
measure the time for LU factorization. It also does not scale! For 64<br>
cores,<br>
I takes 0.05 seconds, for 1024 cores 1.2 seconds. In all calculations,<br>
the<br>
local coarse space matrices defined on four cores have exactly the same<br>
number of rows and exactly the same number of non zero entries. So,<br>
from<br>
my<br>
point of view, the time should be absolutely constant.<br>
<br>
Thomas<br>
<br>
Zitat von Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" target="_blank">bsmith@mcs.anl.gov</a>>:<br>
<br>
<br>
    Are you timing ONLY the time to factor and solve the subproblems?<br>
 Or<br>
<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
also the time to get the data to the collection of 4 cores at a  time?<br>
<br>
    If you are only using LU for these problems and not elsewhere in<br>
 the<br>
code you can get the factorization and time from MatLUFactor()  and<br>
MatSolve() or you can use stages to put this calculation in its  own<br>
stage<br>
and use the MatLUFactor() and MatSolve() time from that  stage.<br>
Also look at the load balancing column for the factorization and<br>
 solve<br>
stage, it is well balanced?<br>
<br>
    Barry<br>
<br>
On Dec 20, 2012, at 2:16 PM, Thomas Witkowski<br></div></div>
<thomas.witkowski@tu-dresden.*<u></u>***de  <thomas.witkowski@tu-dresden.*<u></u>*de<<a href="mailto:thomas.witkowski@tu-dresden.de" target="_blank">thomas.witkowski@tu-<u></u>dresden.de</a>><div><div class="h5">
<br>
>><br>
<br>
wrote:<br>
<br>
 In my multilevel FETI-DP code, I have localized course matrices,<br>
 which<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
are defined on only a subset of all MPI tasks, typically  between 4<br>
and 64<br>
tasks. The MatAIJ and the KSP objects are both  defined on a MPI<br>
communicator, which is a subset of  MPI::COMM_WORLD. The LU<br>
factorization of<br>
the matrices is computed  with either MUMPS or superlu_dist, but both<br>
show<br>
some scaling  property I really wonder of: When the overall problem<br>
size is<br>
increased, the solve with the LU factorization of the local  matrices<br>
does<br>
not scale! But why not? I just increase the number of  local<br>
matrices,<br>
but<br>
all of them are independent of each other. Some  example: I use 64<br>
cores,<br>
each coarse matrix is spanned by 4 cores  so there are 16 MPI<br>
communicators<br>
with 16 coarse space matrices.  The problem need to solve 192 times<br>
with the<br>
coarse space systems,  and this takes together 0.09 seconds. Now I<br>
increase<br>
the number of  cores to 256, but let the local coarse space be<br>
defined<br>
again<br>
on  only 4 cores. Again, 192 solutions with these coarse spaces are<br>
required, but now this takes 0.24 seconds. The same for 1024 cores,<br>
 and we<br>
are at 1.7 seconds for the local coarse space solver!<br>
<br>
For me, this is a total mystery! Any idea how to explain, debug and<br>
eventually how to resolve this problem?<br>
<br>
Thomas<br>
<br>
<br>
</blockquote>
<br>
<br>
<br>
</div></div></blockquote>
<br>
</blockquote><div><div class="h5">
--<br>
What most experimenters take for granted before they begin their<br>
experiments is infinitely more interesting than any results to which<br>
their experiments lead.<br>
-- Norbert Wiener<br>
<br>
<br>
</div></div></blockquote>
<br>
<br>
</blockquote>
<br>
</blockquote>
<br>
<br>
</blockquote>
<br>
</blockquote>
<br>
<br>
</blockquote></div><br></div>