<div dir="ltr">Hi <div>I am solving a frequency domain Maxwell problem for a dielectric structure of size 90x90x50, (the total matrix size is (90x90x50x6)^2 which includes the three vector components as well as real and imaginary parts.)</div><div>I am using SUPERLU_DIST for the direct solver with the following options</div><div><br></div><div>parsymbfact = 1, (parallel symbolic factorization)</div><div>permcol = PARMETIS, (parallel METIS)</div><div>permrow = NATURAL (natural ordering).</div><div><br></div><div>First, I tried to use 4096 cores with 2GB / core memory which totals to about 8 TB of memory.</div><div>I get the following error:</div><div><br></div><div><div><font face="courier new, monospace">Using ParMETIS for parallel ordering.</font></div><div><font face="courier new, monospace">Structual symmetry is:100%</font></div><div><font face="courier new, monospace">   Current memory used:  1400271832 bytes</font></div><div><font face="courier new, monospace">   Maximum memory used:  1575752120 bytes</font></div><div><font face="courier new, monospace">***Memory allocation failed for SetupCoarseGraph: adjncy. Requested size: 148242928 bytes</font></div></div><div><br></div><div>So it seems to be an insufficient memory allocation problem (which apparently happens at the METIS analysis phase?).</div><div><br></div><div>Then, I tried to use 64 large-memory cores which have a total of 2 TB memory (so larger memory per each core), it seems to work fine (though the solver takes about 900 sec ).</div><div>What I don't understand is  why memory per core matters rather than the total memory? If the work space is distributed across the processors, shouldn't it work as long as I choose a sufficient number of smaller-memory cores? What kind of role does the memory per core play in the algorithm in contrast to the total memory over all the cores? </div><div><br></div><div>The issue is I would rather use a large number of small-memory cores than any number of the large-memory cores. The latter are two times more expensive in terms of service units (I am running on STAMPEDE at TACC) and not many cores are available either.</div><div><br></div><div>Any idea would be appreciated.</div><div><br></div><div>Zin</div><div><div><br></div>-- <br><div dir="ltr">Zin Lin<br><br></div>
</div></div>