<div>Hi,</div>
<div>&nbsp;</div>
<div>I tried to use ex2f.F as a test code. I&#39;ve changed the number n,m from 3 to 500 each. I ran the code using 1 processor and then with 4 processor. I then repeat the same with the following modification:</div>
<div>&nbsp;</div>
<p>do i=1,10</p>
<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; call KSPSolve(ksp,b,x,ierr)</p>
<p>end do</p>
<div>I&#39;ve added to do loop to make the solving repeat 10 times. </div>
<div>&nbsp;</div>
<div>In both cases, the serial code is faster, e.g. 1 taking 2.4 min while the other 3.3 min.</div>
<div>&nbsp;</div>
<div>Here&#39;s the log_summary:</div>
<div>&nbsp;</div>
<div>
<p>---------------------------------------------- PETSc Performance Summary: ----------------------------------------------<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br>./ex2f on a linux-mpi named <a href="http://atlas12.nus.edu.sg">atlas12.nus.edu.sg</a>
 with 4 processors, by g0306332 Sat Feb 10 16:21:36 2007<br>Using Petsc Release Version 2.3.2, Patch 8, Tue Jan&nbsp; 2 14:33:59 PST 2007 HG revision: ebeddcedcc065e32fc252af32cf1d01ed4fc7a80<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Max&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Max/Min&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Avg&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Total
<br>Time (sec):&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.213e+02&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00051&nbsp;&nbsp; 2.212e+02<br>Objects:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 5.500e+01&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00000&nbsp;&nbsp; 5.500e+01<br>Flops:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4.718e+09&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00019&nbsp;&nbsp; 4.718e+09&nbsp; 1.887e+10<br>Flops/sec:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.134e+07
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00070&nbsp;&nbsp; 2.133e+07&nbsp; 8.531e+07&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br>Memory:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3.186e+07&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00069&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.274e+08<br>MPI Messages:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.832e+03&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.00000&nbsp;&nbsp; 1.374e+03&nbsp; 5.496e+03<br>MPI Message Lengths:&nbsp; 7.324e+06
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2.00000&nbsp;&nbsp; 3.998e+03&nbsp; 2.197e+07<br>MPI Reductions:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 7.112e+02&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1.00000</p>
<p>Flop counting convention: 1 flop = 1 real number operation of type (multiply/divide/add/subtract)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; e.g., VecAXPY() for real vectors of length N --&gt; 2N flops<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; and VecAXPY() for complex vectors of length N --&gt; 8N flops&nbsp; 
</p>
<p>Summary of Stages:&nbsp;&nbsp; ----- Time ------&nbsp; ----- Flops -----&nbsp; --- Messages ---&nbsp; -- Message Lengths --&nbsp; -- Reductions --<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Avg&nbsp;&nbsp;&nbsp;&nbsp; %Total&nbsp;&nbsp;&nbsp;&nbsp; Avg&nbsp;&nbsp;&nbsp;&nbsp; %Total&nbsp;&nbsp; counts&nbsp;&nbsp; %Total&nbsp;&nbsp;&nbsp;&nbsp; Avg&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; %Total&nbsp;&nbsp; counts&nbsp;&nbsp; %Total 
<br>&nbsp;0:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Main Stage: 2.2120e+02 100.0%&nbsp; 1.8871e+10 100.0%&nbsp; 5.496e+03 100.0%&nbsp; 3.998e+03&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 100.0%&nbsp; 2.845e+03 100.0% </p>
<p>------------------------------------------------------------------------------------------------------------------------<br>See the &#39;Profiling&#39; chapter of the users&#39; manual for details on interpreting output. 
<br>Phase summary info:&nbsp;&nbsp; <br>&nbsp;&nbsp; Count: number of times phase was executed<br>&nbsp;&nbsp; Time and Flops/sec: Max - maximum over all processors <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ratio - ratio of maximum to minimum over all processors<br>
&nbsp;&nbsp; Mess: number of messages sent<br>&nbsp;&nbsp; Avg. len: average message length<br>&nbsp;&nbsp; Reduct: number of global reductions<br>&nbsp;&nbsp; Global: entire computation<br>&nbsp;&nbsp; Stage: stages of a computation. Set stages with PetscLogStagePush() and PetscLogStagePop().
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; %T - percent time in this phase&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; %F - percent flops in this phase<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; %M - percent messages in this phase&nbsp;&nbsp;&nbsp;&nbsp; %L - percent message lengths in this phase<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; %R - percent reductions in this phase 
<br>&nbsp;&nbsp; Total Mflop/s: 10e-6 * (sum of flops over all processors)/(max time over all processors)<br>------------------------------------------------------------------------------------------------------------------------<br>
</p>
<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ##########################################################<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; WARNING!!!&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; This code was compiled with a debugging option,&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; To get timing results run config/configure.py&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; using --with-debugging=no, the performance will&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; be generally two or three times faster.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ##########################################################</p>
<p>&nbsp;</p>
<p><br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ##########################################################<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; WARNING!!!&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; This code was run without the PreLoadBegin()&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; macros. To get timing results we always recommend&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; preloading. otherwise timing numbers may be&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #&nbsp;&nbsp; meaningless.&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; #
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ##########################################################</p>
<p><br>Event&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Count&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time (sec)&nbsp;&nbsp;&nbsp;&nbsp; Flops/sec&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; --- Global ---&nbsp; --- Stage ---&nbsp;&nbsp; Total<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Max Ratio&nbsp; Max&nbsp;&nbsp;&nbsp;&nbsp; Ratio&nbsp;&nbsp; Max&nbsp; Ratio&nbsp; Mess&nbsp;&nbsp; Avg len Reduct&nbsp; %T %F %M %L %R&nbsp; %T %F %M %L %R Mflop/s
<br>------------------------------------------------------------------------------------------------------------------------</p>
<p>--- Event Stage 0: Main Stage</p>
<p>MatMult&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 4.4291e+01 1.3 1.50e+07 1.3 5.5e+03 4.0e+03 0.0e+00 18 11100100&nbsp; 0&nbsp; 18 11100100&nbsp; 0&nbsp;&nbsp;&nbsp; 46<br>MatSolve&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 1.5684e+01 1.1 3.56e+07 1.1 0.0e+00 0.0e+00 0.0e+00&nbsp; 7 11&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 7 11&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 131
<br>MatLUFactorNum&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 5.1654e-02 1.4 1.48e+07 1.4 0.0e+00 0.0e+00 0.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp; 43<br>MatILUFactorSym&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 1.6838e-02 1.1 0.00e+00 0.0 0.0e+00 0.0e+00 2.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0
<br>MatAssemblyBegin&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 3.2428e-01 1.6 0.00e+00 0.0 0.0e+00 0.0e+00 2.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0<br>MatAssemblyEnd&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 1.3120e+00 1.1 0.00e+00 0.0 6.0e+00 2.0e+03 1.3e+01&nbsp; 1&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 1&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0
<br>MatGetOrdering&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 4.1590e-03 1.2 0.00e+00 0.0 0.0e+00 0.0e+00 2.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0<br>VecMDot&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 885 1.0 8.5091e+01 1.1 2.27e+07 1.1 0.0e+00 0.0e+00 8.8e+02 36 36&nbsp; 0&nbsp; 0 31&nbsp; 36 36&nbsp; 0&nbsp; 0 31&nbsp;&nbsp;&nbsp; 80
<br>VecNorm&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 916 1.0 6.6747e+01 1.1 1.81e+06 1.1 0.0e+00 0.0e+00 9.2e+02 29&nbsp; 2&nbsp; 0&nbsp; 0 32&nbsp; 29&nbsp; 2&nbsp; 0&nbsp; 0 32&nbsp;&nbsp;&nbsp;&nbsp; 7<br>VecScale&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 1.1430e+00 2.2 1.12e+08 2.2 0.0e+00 0.0e+00 0.0e+00&nbsp; 0&nbsp; 1&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 1&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 200
<br>VecCopy&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 30 1.0 1.2816e-01 5.7 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0<br>VecSet&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 947 1.0 7.8979e-01 1.3 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0
<br>VecAXPY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 60 1.0 5.5332e-02 1.1 1.51e+08 1.1 0.0e+00 0.0e+00 0.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 542<br>VecMAXPY&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 1.5004e+01 1.3 1.54e+08 1.3 0.0e+00 0.0e+00 0.0e+00&nbsp; 6 38&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 6 38&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 483
<br>VecScatterBegin&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 9.0358e-02 1.4 0.00e+00 0.0 5.5e+03 4.0e+03 0.0e+00&nbsp; 0&nbsp; 0100100&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0100100&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0<br>VecScatterEnd&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 3.5136e+01 1.4 0.00e+00 0.0 0.0e+00 0.0e+00 0.0e+00 14&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 14&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0
<br>VecNormalize&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 6.7272e+01 1.0 2.68e+06 1.0 0.0e+00 0.0e+00 9.2e+02 30&nbsp; 4&nbsp; 0&nbsp; 0 32&nbsp; 30&nbsp; 4&nbsp; 0&nbsp; 0 32&nbsp;&nbsp;&nbsp; 10<br>KSPGMRESOrthog&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 885 1.0 9.8478e+01 1.1 3.87e+07 1.1 0.0e+00 0.0e+00 8.8e+02 42 72&nbsp; 0&nbsp; 0 31&nbsp; 42 72&nbsp; 0&nbsp; 0 31&nbsp;&nbsp; 138
<br>KSPSetup&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2 1.0 6.1918e-01 1.2 0.00e+00 0.0 0.0e+00 0.0e+00 1.0e+01&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0<br>KSPSolve&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 2.1892e+02 1.0 2.15e+07 1.0 5.5e+03 4.0e+03 2.8e+03 99100100100 99&nbsp; 99100100100 99&nbsp;&nbsp;&nbsp; 86
<br>PCSetUp&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2 1.0 7.3292e-02 1.3 9.84e+06 1.3 0.0e+00 0.0e+00 6.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp; 30<br>PCSetUpOnBlocks&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1 1.0 7.2706e-02 1.3 9.97e+06 1.3 0.0e+00 0.0e+00 4.0e+00&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp; 0&nbsp;&nbsp;&nbsp; 31
<br>PCApply&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 915 1.0 1.6508e+01 1.1 3.27e+07 1.1 0.0e+00 0.0e+00 9.2e+02&nbsp; 7 11&nbsp; 0&nbsp; 0 32&nbsp;&nbsp; 7 11&nbsp; 0&nbsp; 0 32&nbsp;&nbsp; 124<br>------------------------------------------------------------------------------------------------------------------------
<br></p>
<p>Memory usage is given in bytes:</p>
<p>Object Type&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Creations&nbsp;&nbsp; Destructions&nbsp;&nbsp; Memory&nbsp; Descendants&#39; Mem.</p>
<p>--- Event Stage 0: Main Stage</p>
<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Matrix&nbsp;&nbsp;&nbsp;&nbsp; 4&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 4&nbsp;&nbsp;&nbsp;&nbsp; 252008&nbsp;&nbsp;&nbsp;&nbsp; 0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Index Set&nbsp;&nbsp;&nbsp;&nbsp; 5&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 5&nbsp;&nbsp;&nbsp;&nbsp; 753096&nbsp;&nbsp;&nbsp;&nbsp; 0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Vec&nbsp;&nbsp;&nbsp; 41&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 41&nbsp;&nbsp; 18519984&nbsp;&nbsp;&nbsp;&nbsp; 0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Vec Scatter&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Krylov Solver&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 16880&nbsp;&nbsp;&nbsp;&nbsp; 0<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Preconditioner&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 196&nbsp;&nbsp;&nbsp;&nbsp; 0<br>========================================================================================================================
<br>Average time to get PetscTime(): 1.09673e-06<br>Average time for MPI_Barrier(): 4.18186e-05<br>Average time for zero size MPI_Send(): 2.62856e-05<br>OptionTable: -log_summary<br>Compiled without FORTRAN kernels<br>Compiled with full precision matrices (default)
<br>sizeof(short) 2 sizeof(int) 4 sizeof(long) 4 sizeof(void*) 4 sizeof(PetscScalar) 8<br>Configure run at: Thu Jan 18 12:23:31 2007<br>Configure options: --with-vendor-compilers=intel --with-x=0 --with-shared --with-blas-lapack-dir=/lsftmp/g0306332/inter/mkl/lib/32 --with-mpi-dir=/opt/mpich/myrinet/intel/
<br>-----------------------------------------<br>Libraries compiled on Thu Jan 18 12:24:41 SGT 2007 on <a href="http://atlas1.nus.edu.sg">atlas1.nus.edu.sg</a><br>Machine characteristics: Linux <a href="http://atlas1.nus.edu.sg">
atlas1.nus.edu.sg</a> 2.4.21-20.ELsmp #1 SMP Wed Sep 8 17:29:34 GMT 2004 i686 i686 i386 GNU/Linux<br>Using PETSc directory: /nas/lsftmp/g0306332/petsc-2.3.2-p8<br>Using PETSc arch: linux-mpif90<br>-----------------------------------------
<br>Using C compiler: /opt/mpich/myrinet/intel/bin/mpicc -fPIC -g<br>Using Fortran compiler: /opt/mpich/myrinet/intel/bin/mpif90 -I. -fPIC -g -w90 -w<br>-----------------------------------------<br>Using include paths: -I/nas/lsftmp/g0306332/petsc-
2.3.2-p8 -I/nas/lsftmp/g0306332/petsc-2.3.2-p8/bmake/linux-mpif90 -I/nas/lsftmp/g0306332/petsc-2.3.2-p8/include -I/opt/mpich/myrinet/intel/include<br>------------------------------------------<br>Using C linker: /opt/mpich/myrinet/intel/bin/mpicc -fPIC -g
<br>Using Fortran linker: /opt/mpich/myrinet/intel/bin/mpif90 -I. -fPIC -g -w90 -w<br>Using libraries: -Wl,-rpath,/nas/lsftmp/g0306332/petsc-2.3.2-p8/lib/linux-mpif90 -L/nas/lsftmp/g0306332/petsc-2.3.2-p8/lib/linux-mpif90 -lpetscts -lpetscsnes -lpetscksp -lpetscdm -lpetscmat -lpetscvec -lpetsc&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -Wl,-rpath,/lsftmp/g0306332/inter/mkl/lib/32 -L/lsftmp/g0306332/inter/mkl/lib/32 -lmkl_lapack -lmkl_ia32 -lguide -lPEPCF90 -Wl,-rpath,/opt/intel/compiler70/ia32/lib -Wl,-rpath,/opt/mpich/myrinet/intel/lib -L/opt/mpich/myrinet/intel/lib -Wl,-rpath,-rpath -Wl,-rpath,-ldl -L-ldl -lmpich -Wl,-rpath,-L -lgm -lpthread -Wl,-rpath,/opt/intel/compiler70/ia32/lib -Wl,-rpath,/opt/intel/compiler70/ia32/lib -L/opt/intel/compiler70/ia32/lib -Wl,-rpath,/usr/lib -Wl,-rpath,/usr/lib -L/usr/lib -limf -lirc -lcprts -lcxa -lunwind -ldl -lmpichf90 -Wl,-rpath,/opt/gm/lib -L/opt/gm/lib -lPEPCF90 -Wl,-rpath,/opt/intel/compiler70/ia32/lib -L/opt/intel/compiler70/ia32/lib -Wl,-rpath,/usr/lib -L/usr/lib -lintrins -lIEPCF90 -lF90 -lm&nbsp; -Wl,-rpath,\ -Wl,-rpath,\ -L\ -ldl -lmpich -Wl,-rpath,\ -L\ -lgm -lpthread -Wl,-rpath,/opt/intel/compiler70/ia32/lib -L/opt/intel/compiler70/ia32/lib -Wl,-rpath,/usr/lib -L/usr/lib -limf -lirc -lcprts -lcxa -lunwind -ldl
<br>------------------------------------------</p>
<p>&nbsp;So is there something wrong with the server&#39;s mpi implementation?</p>
<p>Thank you.</p></div>
<div><br><br>&nbsp;</div>
<div><span class="gmail_quote">On 2/10/07, <b class="gmail_sendername">Satish Balay</b> &lt;<a href="mailto:balay@mcs.anl.gov">balay@mcs.anl.gov</a>&gt; wrote:</span>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">Looks like MatMult = 24sec Out of this the scatter time is: 22sec.<br>Either something is wrong with your run - or MPI is really broken..
<br><br>Satish<br><br>&gt; &gt; &gt; MatMult&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3927 1.0 2.4071e+01 1.3 6.14e+06 1.4 2.4e+04 1.3e+03<br>&gt; &gt; &gt; VecScatterBegin&nbsp;&nbsp;&nbsp;&nbsp; 3927 1.0 2.8672e-01 3.9 0.00e+00 0.0 2.4e+04 1.3e+03<br>&gt; &gt; &gt; VecScatterEnd&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3927 
1.0 2.2135e+01 1.5 0.00e+00 0.0 0.0e+00 0.0e+00<br><br></blockquote></div><br>