<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Thu, May 29, 2014 at 5:40 PM, Qin Lu <span dir="ltr"><<a href="mailto:lu_qin_2000@yahoo.com" target="_blank">lu_qin_2000@yahoo.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div style="color:#000;background-color:#fff;font-family:HelveticaNeue,Helvetica Neue,Helvetica,Arial,Lucida Grande,sans-serif;font-size:12pt">
<div>Is this determined by how the machine was built (which I can not do anything), or by how the MPI/meassge-passing is configured at the cluster (which I can ask IT people to modify)? - this machine is actually a node of a linux cluster.</div>
</div></div></blockquote><div><br></div><div>It is determined by how the machine was built. Your best bet for scalability is to use one process per node.</div><div><br></div><div>  Thanks,</div><div><br></div><div>     Matt</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div style="color:#000;background-color:#fff;font-family:HelveticaNeue,Helvetica Neue,Helvetica,Arial,Lucida Grande,sans-serif;font-size:12pt">
<div><span style="font-size:12pt"> </span></div><div>Thanks,</div><div>Qin </div><div><br></div>  <div style="font-family:HelveticaNeue,Helvetica Neue,Helvetica,Arial,Lucida Grande,sans-serif;font-size:12pt"> <div style="font-family:HelveticaNeue,Helvetica Neue,Helvetica,Arial,Lucida Grande,sans-serif;font-size:12pt">
 <div dir="ltr"> <div style="margin:5px 0px;padding:0px;border:1px solid rgb(204,204,204);min-height:0px;line-height:0;font-size:0px" readonly></div>  <font face="Arial"> <b><span style="font-weight:bold">From:</span></b> Matthew Knepley <<a href="mailto:knepley@gmail.com" target="_blank">knepley@gmail.com</a>><br>
 <b><span style="font-weight:bold">To:</span></b> Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" target="_blank">lu_qin_2000@yahoo.com</a>> <br><b><span style="font-weight:bold">Cc:</span></b> Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" target="_blank">bsmith@mcs.anl.gov</a>>; petsc-users <<a href="mailto:petsc-users@mcs.anl.gov" target="_blank">petsc-users@mcs.anl.gov</a>> <br>
 <b><span style="font-weight:bold">Sent:</span></b> Thursday, May 29, 2014 5:27 PM<br> <b><span style="font-weight:bold">Subject:</span></b> Re: [petsc-users] About parallel performance<br> </font> </div> <div><br><div><div>
<div dir="ltr"><div><div>On Thu, May 29, 2014 at 5:15 PM, Qin Lu <span dir="ltr"><<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>></span> wrote:<br clear="none">

<blockquote style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid">Barry,<br clear="none">
 <br clear="none">
How did you read the test results? For a machine good for parallism, should the data of np=2 be about half of the those of np=1?</blockquote><div><br clear="none"></div><div>Ideally, the numbers should be about twice as big for np = 2.</div>

<div> </div><blockquote style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid"> <br clear="none">
The machine has very new Intel chips and is very for serial run. What may cause the bad parallism? - the configurations of the machine, or I am using a MPI lib (MPICH2) that was not built correctly?<br clear="none"></blockquote>
<div>
<br clear="none"></div><div>The cause is machine architecture. The memory bandwidth is only sufficient for one core.</div><div><br clear="none"></div><div>  Thanks,</div><div><br clear="none"></div><div>     Matt</div><div>
<br><br></div><div><div> </div></div><blockquote style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid"><div>

Many thanks,<br clear="none">
Qin<br clear="none">
 <br clear="none">
----- Original Message -----<br clear="none">
From: Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">bsmith@mcs.anl.gov</a>><br clear="none">
To: Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>>; petsc-users <<a href="mailto:petsc-users@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">petsc-users@mcs.anl.gov</a>><br clear="none">

Cc:<br clear="none">
Sent: Thursday, May 29, 2014 4:54 PM<br clear="none">
Subject: Re: [petsc-users] About parallel performance<br clear="none">
<br clear="none">
<br clear="none">
  In that PETSc version BasicVersion is actually the MPI streams benchmark so you ran the right thing. Your machine is totally worthless for sparse linear algebra parallelism. The entire memory bandwidth is used by the first core so adding the second core to the computation gives you no improvement at all in the streams benchmark.<br clear="none">


<br clear="none">
  But the single core memory bandwidth is pretty good so for problems that don’t need parallelism you should get good performance.<br clear="none">
<br clear="none">
   Barry<br clear="none">
<br clear="none">
<br clear="none">
<br clear="none">
<br clear="none">
On May 29, 2014, at 4:37 PM, Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>> wrote:<br clear="none">
<br clear="none">
> Barry,<br clear="none">
><br clear="none">
> I have PETSc-3.4.2 and I didn't see MPIVersion there; do you mean BasicVersion? I built and ran it (if you did mean MPIVersion, I will get PETSc-3.4 later):<br clear="none">
><br clear="none">
> =================<br clear="none">
> [/petsc-3.4.2-64bit/src/benchmarks/streams]$ mpiexec -n 1 ./BasicVersion<br clear="none">
> Number of MPI processes 1<br clear="none">
> Function      Rate (MB/s)<br clear="none">
> Copy:       21682.9932<br clear="none">
> Scale:      21637.5509<br clear="none">
> Add:        21583.0395<br clear="none">
> Triad:      21504.6563<br clear="none">
> [/petsc-3.4.2-64bit/src/benchmarks/streams]$ mpiexec -n 2 ./BasicVersion<br clear="none">
> Number of MPI processes 2<br clear="none">
> Function      Rate (MB/s)<br clear="none">
> Copy:       21369.6976<br clear="none">
> Scale:      21632.3203<br clear="none">
> Add:        22203.7107<br clear="none">
> Triad:      22305.1841<br clear="none">
> =======================<br clear="none">
><br clear="none">
> Thanks a lot,<br clear="none">
> Qin<br clear="none">
><br clear="none">
> From: Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">bsmith@mcs.anl.gov</a>><br clear="none">
> To: Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>><br clear="none">
> Cc: "<a href="mailto:petsc-users@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">petsc-users@mcs.anl.gov</a>" <<a href="mailto:petsc-users@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">petsc-users@mcs.anl.gov</a>><br clear="none">

> Sent: Thursday, May 29, 2014 4:17 PM<br clear="none">
> Subject: Re: [petsc-users] About parallel performance<br clear="none">
><br clear="none">
><br clear="none">
><br clear="none">
>   You need to run the streams benchmarks are one and two processes to see how the memory bandwidth changes. If you are using petsc-3.4 you can<br clear="none">
><br clear="none">
> cd  src/benchmarks/streams/<br clear="none">
><br clear="none">
> make MPIVersion<br clear="none">
><br clear="none">
> mpiexec -n 1 ./MPIVersion<br clear="none">
><br clear="none">
> mpiexec -n 2 ./MPIVersion<br clear="none">
><br clear="none">
>    and send all the results<br clear="none">
><br clear="none">
>    Barry<br clear="none">
><br clear="none">
><br clear="none">
><br clear="none">
> On May 29, 2014, at 4:06 PM, Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>> wrote:<br clear="none">
><br clear="none">
>> For now I only care about the CPU of PETSc subroutines. I tried to add PetscLogEventBegin/End and the results are consistent with the log_summary attached in my first email.<br clear="none">
>> <br clear="none">
>> The CPU of MatSetValues and MatAssemblyBegin/End of both p1 and p2 runs are small (< 20 sec). The CPU of PCSetup/PCApply are about the same between p1 and p2 (~120 sec). The CPU of KSPSolve of p2 (143 sec) is a little faster than p1's (176 sec), but p2 spent more time in MatGetSubMatrice (43 sec). So the total CPU of PETSc subtroutines are about the same between p1 and p2 (502 sec vs. 488 sec).<br clear="none">


>><br clear="none">
>> It seems I need a more efficient parallel preconditioner. Do you have any suggestions for that?<br clear="none">
>><br clear="none">
>> Many thanks,<br clear="none">
>> Qin<br clear="none">
>><br clear="none">
>> ----- Original Message -----<br clear="none">
>> From: Barry Smith <<a href="mailto:bsmith@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">bsmith@mcs.anl.gov</a>><br clear="none">
>> To: Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>><br clear="none">
>> Cc: "<a href="mailto:petsc-users@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">petsc-users@mcs.anl.gov</a>" <<a href="mailto:petsc-users@mcs.anl.gov" shape="rect" rel="nofollow" target="_blank">petsc-users@mcs.anl.gov</a>><br clear="none">

>> Sent: Thursday, May 29, 2014 2:12 PM<br clear="none">
>> Subject: Re: [petsc-users] About parallel performance<br clear="none">
>><br clear="none">
>><br clear="none">
>>     You need to determine where the other 80% of the time is. My guess it is in setting the values into the matrix each time. Use PetscLogEventRegister() and put a PetscLogEventBegin/End() around the code that computes all the entries in the matrix and calls MatSetValues() and MatAssemblyBegin/End().<br clear="none">


>><br clear="none">
>>     Likely the reason the linear solver does not scale better is that you have a machine with multiple cores that share the same memory bandwidth and the first core is already using well over half the memory bandwidth so the second core cannot be fully utilized since both cores have to wait for data to arrive from memory.  If you are using the development version of PETSc you can run make streams NPMAX=2 from the PETSc root directory and send this to us to confirm this.<br clear="none">


>><br clear="none">
>>     Barry<br clear="none">
>><br clear="none">
>><br clear="none">
>><br clear="none">
>><br clear="none">
>><br clear="none">
>> On May 29, 2014, at 1:23 PM, Qin Lu <<a href="mailto:lu_qin_2000@yahoo.com" shape="rect" rel="nofollow" target="_blank">lu_qin_2000@yahoo.com</a>> wrote:<br clear="none">
>><br clear="none">
>>> Hello,<br clear="none">
>>><br clear="none">
>>> I implemented PETSc parallel linear solver in a program, the implementation is basically the same as /src/ksp/ksp/examples/tutorials/ex2.c, i.e., I preallocated the MatMPIAIJ, and let PETSc partition the matrix through MatGetOwnershipRange. However, a few tests shows the parallel solver is always a little slower the serial solver (I have excluded the matrix generation CPU).<br clear="none">


>>><br clear="none">
>>> For serial run I used PCILU as preconditioner; for parallel run, I used ASM with ILU(0) at each subblocks (-sub_pc_type ilu -sub_ksp_type preonly -ksp_type bcgs -pc_type asm). The number of unknowns are around 200,000.<br clear="none">


>>> <br clear="none">
>>> I have used -log_summary to print out the performance summary as attached (log_summary_p1 for serial run and log_summary_p2 for the run with 2 processes). It seems the KSPSolve counts only for less than 20% of Global %T.<br clear="none">


>>> My questions are:<br clear="none">
>>> <br clear="none">
>>> 1. what is the bottle neck of the parallel run according to the summary?<br clear="none">
>>> 2. Do you have any suggestions to improve the parallel performance?<br clear="none">
>>> <br clear="none">
>>> Thanks a lot for your suggestions!<br clear="none">
>>> <br clear="none">
>>> Regards,<br clear="none">
>>> Qin    <log_summary_p1.txt><log_summary_p2.txt>     </div><br clear="none"><span class="HOEnZb"><font color="#888888">
</font></span></blockquote></div><span class="HOEnZb"><font color="#888888"><br clear="none"><br clear="all"><div><br clear="none"></div>-- <br clear="none">What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br clear="none">

-- Norbert Wiener
</font></span></div></div></div></div><br><br></div> </div> </div>  </div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>What most experimenters take for granted before they begin their experiments is infinitely more interesting than any results to which their experiments lead.<br>
-- Norbert Wiener
</div></div>