Hi Sukanta,<br><br>I am not sure what may be the problem but you are right, 24GB is more than enough for your domain size. I have been running larger WRF domains in dmpar mode on various architectures including Cray for quite some time. For me, it suffices to have the following in my .bashrc<br>

<br>unset limits<br>export MP_STACK_SIZE=64000000<br><br>Are you using FPMPI? Is yes, what happens if you dont use the profiler?<br><br>Regards<br>Preeti<br><br><div class="gmail_quote">On Thu, Feb 9, 2012 at 7:55 PM, Sukanta Basu <span dir="ltr">&lt;<a href="mailto:sukanta.basu@gmail.com">sukanta.basu@gmail.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Gus,<br>
<br>
The Cray has 4 nodes (each containing 8 cores, 24 GB RAM). The nodes<br>
are connected by gigE. I need to use dmpar option.<br>
<br>
Regards,<br>
Sukanta<br>
<div class="HOEnZb"><div class="h5"><br>
On Thu, Feb 9, 2012 at 8:59 AM, Gustavo Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt; wrote:<br>
&gt; Hi Basu<br>
&gt;<br>
&gt; Sorry, I missed the &#39;dmpar&#39; information.<br>
&gt; I am not familiar to it, but I guess it is the Cray trick to make the CX1 machine<br>
&gt; look like a standard distributed memory environment?<br>
&gt; [As opposed to a full shared memory environment across all nodes,<br>
&gt; which would be &#39;smpar&#39;, right?]<br>
&gt;<br>
&gt; If &#39;dmpar&#39; it is a standard distributed memory environment, I presume all that<br>
&gt; I said before still holds.  I would just try to set KMP_STACKSIZE to 16m or more on<br>
&gt; all nodes, and run WRF again.<br>
&gt;<br>
&gt; FYI, I had some issues compiling some models with Intel 12.0, and in other mailing<br>
&gt; lists I saw people that had issues with version 12.1.<br>
&gt; However, I compiled some models with Intel 11.1 correctly, but as I said before, not WRF.<br>
&gt;<br>
&gt; BTW, we&#39;re cheap here.  No funding for fancy machines, no Cray, no IBM, no SGI.<br>
&gt; The top thing we can buy is a standard Linux cluster once in a while. :)<br>
&gt;<br>
&gt; Good luck,<br>
&gt; Gus Correa<br>
&gt;<br>
&gt; On Feb 9, 2012, at 8:25 AM, Sukanta Basu wrote:<br>
&gt;<br>
&gt;&gt; Hi Gus,<br>
&gt;&gt;<br>
&gt;&gt; Thanks for your email.<br>
&gt;&gt;<br>
&gt;&gt; I am compiling WRF with dmpar option (distributed memory). WRF has a<br>
&gt;&gt; different option for hybrid openmp+mpi (they call it dmpar+smpar). To<br>
&gt;&gt; the best of my knowledge, openmp is not invoked.<br>
&gt;&gt;<br>
&gt;&gt; I do understand the distinction between openmp and openmpi. Yesterday,<br>
&gt;&gt; I uninstalled mpich2 and installed openmpi. I compiled and ran wrf<br>
&gt;&gt; jobs. As I mentioned before, I faced different types of problems.<br>
&gt;&gt;<br>
&gt;&gt; I have been using WRF on various clusters for ~6-7 years. I bought a<br>
&gt;&gt; Cray CX1 recently and trying to set it up myself for running WRF<br>
&gt;&gt; locally. Now, I am suspecting that there is some compatibility issues<br>
&gt;&gt; between WRF and the Intel Composer. I used to use Intel 11.1 compiler.<br>
&gt;&gt;<br>
&gt;&gt; I will set KMP_STACKSIZE and re-run the simulations with wrf+mpich2+intel.<br>
&gt;&gt;<br>
&gt;&gt; Best regards,<br>
&gt;&gt; Sukanta<br>
&gt;&gt;<br>
&gt;&gt; On Thu, Feb 9, 2012 at 8:02 AM, Gustavo Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt; wrote:<br>
&gt;&gt;&gt; Hi Sukanta<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Did you read the final part of my previous email about KMP_STACKSIZE?<br>
&gt;&gt;&gt; This is how Intel calls the OpenMP threads stack size.<br>
&gt;&gt;&gt; I think you misspelled that environment variable [it is not MP_STACKSIZE as your email says].<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Did you compile WRF with OpenMP turned on and with the Intel compiler?<br>
&gt;&gt;&gt; If you did, you certainly need to increase also the threads&#39; stack size.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I had experiences similar to yours, with other models compiled with Intel ifort,<br>
&gt;&gt;&gt; and OpenMP, i.e., unexplained segmentation faults, even though the stacksize was<br>
&gt;&gt;&gt; set to unlimited.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Some time ago I posted this same solution in this mailing list to somebody<br>
&gt;&gt;&gt; at LLNL or ANL, I think, who was having this type of problem as well.<br>
&gt;&gt;&gt; It is common in hybrid MPI+OpenMP programs.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I would set KMP_STACKSIZE to 16m  at least *on all nodes*, maybe in your .bashrc, or in the script that launches the job.  I don&#39;t remember the syntax on top of my head,<br>
&gt;&gt;&gt; but the MPICH2 mpiexec [hydra] probably has a way to export the environment variables<br>
&gt;&gt;&gt; to all processes.  Check &#39;man mpiexec&#39;.<br>
&gt;&gt;&gt; You must ensure that the environment variable is set *on all nodes*.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; You may need more than 16m, depending on how fine a grid you are using.<br>
&gt;&gt;&gt; In another model here I had to use 512m, but this also depends<br>
&gt;&gt;&gt; on how much memory/RAM your nodes have available per core.<br>
&gt;&gt;&gt; You could try increasing it step by step, say, doubling each  time:<br>
&gt;&gt;&gt; 16m, 32m, 64m, ...<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Anyway, this is a guess based on what happened here.<br>
&gt;&gt;&gt; There is no guarantee that it will work, although it may be worth trying it.<br>
&gt;&gt;&gt; The problem you see may also be a bug in WRF, or an input/forcing file that is missing, etc.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I hope this helps,<br>
&gt;&gt;&gt; Gus Correa<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; PS - Note:  Just to avoid confusion with names.<br>
&gt;&gt;&gt; OpenMP and OpenMPI  [or Open MPI] are different things.<br>
&gt;&gt;&gt; The former is the thread-based standard for parallelization:<br>
&gt;&gt;&gt; <a href="http://openmp.org/wp/" target="_blank">http://openmp.org/wp/</a><br>
&gt;&gt;&gt; The latter is another open source  MPI, like MPICH2:<br>
&gt;&gt;&gt; <a href="http://www.open-mpi.org/" target="_blank">http://www.open-mpi.org/</a><br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On Feb 8, 2012, at 10:33 PM, Sukanta Basu wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Hi Gus,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; I tried setting the stack option in limits.conf. No change. I logged<br>
&gt;&gt;&gt;&gt; on to each nodes and checked that the ulimit is indeed unlimited.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; I just installed openmpi and recompiled WRF. It now runs with any<br>
&gt;&gt;&gt;&gt; array sizes. However, I have a different problem. Now, one of the<br>
&gt;&gt;&gt;&gt; processes quits suddenly during the run (with a segmentation fault<br>
&gt;&gt;&gt;&gt; error). I think both the mpich2 and openmpi problems are somewhat<br>
&gt;&gt;&gt;&gt; related.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Best regards,<br>
&gt;&gt;&gt;&gt; Sukanta<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; On Wed, Feb 8, 2012 at 6:20 PM, Gustavo Correa &lt;<a href="mailto:gus@ldeo.columbia.edu">gus@ldeo.columbia.edu</a>&gt; wrote:<br>
&gt;&gt;&gt;&gt;&gt; Hi Sukanta<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Did you set the stacksize [not only memlock] to unlimited in<br>
&gt;&gt;&gt;&gt;&gt; /etc/security/limits.conf on all nodes?<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Not sure this will work, but you could try to run &#39;ulimit -s&#39;  and &#39;ulimit -l&#39; via mpiexec, just to check:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; mpiexec -prepend-rank -f hostfile -np 32 ulimit -s<br>
&gt;&gt;&gt;&gt;&gt; mpiexec -prepend-rank -f hostfile -np 32 ulimit -l<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Or just login to each node and check.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Also, if your WRF is compiled with OpenMP,<br>
&gt;&gt;&gt;&gt;&gt; I think the Intel-specific environment variable for OMP_STACKSIZE is<br>
&gt;&gt;&gt;&gt;&gt; KMP_STACKSIZE [not MP_STACKSIZE], although they should also accept<br>
&gt;&gt;&gt;&gt;&gt; the portable/standard OMP_STACKSIZE [but I don&#39;t know if they do].<br>
&gt;&gt;&gt;&gt;&gt; For some models here I had to make is as big as 512m [I don&#39;t run wrf, though].<br>
&gt;&gt;&gt;&gt;&gt; &#39;man ifort&#39; should tell more about it [at the end of the man page].<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; I hope this helps,<br>
&gt;&gt;&gt;&gt;&gt; Gus Correa<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; On Feb 8, 2012, at 4:23 PM, Anthony Chan wrote:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; There is fpi, Fortran counterpart of cpi, you can try that.<br>
&gt;&gt;&gt;&gt;&gt;&gt; Also, there is MPICH2 testsuite which is located in<br>
&gt;&gt;&gt;&gt;&gt;&gt; mpich2-xxx/test/mpi can be invoked by &quot;make testing&quot;.<br>
&gt;&gt;&gt;&gt;&gt;&gt; It is unlikely those tests will reveal anything.<br>
&gt;&gt;&gt;&gt;&gt;&gt; The testsuite is meant to test the MPI implementation<br>
&gt;&gt;&gt;&gt;&gt;&gt; not your app.<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; As what you said earlier, your difficulty in running WRF<br>
&gt;&gt;&gt;&gt;&gt;&gt; with larger dataset is memory related.  You should contact WRF<br>
&gt;&gt;&gt;&gt;&gt;&gt; emailing list for more pointers.<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; ----- Original Message -----<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi Anthony,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Is there any other mpi example code (other than cpi.c) that I could<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; test which will give me more information about my mpich setup?<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Here is the output from cpi (using 32 cores on 4 nodes):<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; mpiuser@crayN1-5150jo:~/Misc$ mpiexec -f mpd.hosts -n 32 ./cpi<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 1 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 18 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 2 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 26 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 5 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 14 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 21 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 22 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 25 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 6 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 9 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 17 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 30 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 10 on crayN2-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 29 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 13 on crayN1-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 8 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 20 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 4 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 12 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 0 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 24 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 16 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 28 on crayN3-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 3 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 7 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 11 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 23 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 27 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 31 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 19 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Process 15 on crayN4-5150jo<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; pi is approximately 3.1416009869231249, Error is 0.0000083333333318<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; wall clock time = 0.009401<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Best regards,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; On Wed, Feb 8, 2012 at 1:19 PM, Anthony Chan &lt;<a href="mailto:chan@mcs.anl.gov">chan@mcs.anl.gov</a>&gt; wrote:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Hmm.. Not sure what is happening.. I don&#39;t see anything<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; obviously wrong in your mpiexec verbose output (though<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I am not hydra expert). Your code now is killed because of<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; segmentation fault. Naively, I would recompile WRF with -g<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; and use a debugger to see where segfault is. If you don&#39;t want<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; to mess around WRF source code, you may want to contact WRF<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; developers to see if they have encountered similar problem<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; before.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; ----- Original Message -----<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Dear Anthony,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Thanks for your response. Yes, I did try MP_STACK_SIZE and<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; OMP_STACKSIZE. The error is still there. I have attached a log file<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; (I<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; ran mpiexec with -verbose option). May be this will help.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Best regards,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; On Tue, Feb 7, 2012 at 3:28 PM, Anthony Chan &lt;<a href="mailto:chan@mcs.anl.gov">chan@mcs.anl.gov</a>&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; wrote:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I am not familar with WRF, and not sure if WRF uses any thread<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; in dmpar mode. Did you try setting MP_STACK_SIZE or OMP_STACKSIZE<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; ?<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; see: <a href="http://forum.wrfforum.com/viewtopic.php?f=6&amp;t=255" target="_blank">http://forum.wrfforum.com/viewtopic.php?f=6&amp;t=255</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; A.Chan<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; ----- Original Message -----<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Hi,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I am using a small cluster of 4 nodes (each with 8 cores + 24 GB<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; RAM).<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; OS: Ubuntu 11.10. The cluster uses nfs file system and gigE<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; connections.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I installed mpich2 and ran cpi.c program successfully.<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I installed WRF (<a href="http://www.wrf-model.org/index.php" target="_blank">http://www.wrf-model.org/index.php</a>) using the<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; intel<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; compilers (dmpar option)<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I set ulimit -l and -s to be unlimited in .bashrc (all nodes)<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I set memlock to be unlimited in limits.conf (all nodes)<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I have password-less ssh (public key sharing) on all the nodes<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; I ran parallel jobs with 40x40x40, 40x40x50, and 40x40x60 grid<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; points<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; successfully. However, when I utilize 40x40x80 grid points, I<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; get<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; the<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; following MPI error:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; **********************************************************<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Fatal error in PMPI_Wait: Other MPI error, error stack:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; PMPI_Wait(183)............: MPI_Wait(request=0x34e83a4,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; status=0x7fff7b24c400) failed<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; MPIR_Wait_impl(77)........:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; dequeue_and_set_error(596): Communication error with rank 8<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; **********************************************************<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Given that I can run the exact simulation with slightly lesser<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; number<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; of grid points without any problem, this error is related to<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; stack<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; size. What could be the problem?<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Thanks,<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta Basu<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Associate Professor<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; North Carolina State University<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; mpich-discuss mailing list <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; mpich-discuss mailing list <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta Basu<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; Associate Professor<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; North Carolina State University<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Sukanta Basu<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; Associate Professor<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; North Carolina State University<br>
&gt;&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
&gt;&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt;&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt;&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt;&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt; Sukanta Basu<br>
&gt;&gt;&gt;&gt; Associate Professor<br>
&gt;&gt;&gt;&gt; North Carolina State University<br>
&gt;&gt;&gt;&gt; <a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt; Sukanta Basu<br>
&gt;&gt; Associate Professor<br>
&gt;&gt; North Carolina State University<br>
&gt;&gt; <a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt;&gt; To manage subscription options or unsubscribe:<br>
&gt;&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; To manage subscription options or unsubscribe:<br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
<br>
<br>
--<br>
Sukanta Basu<br>
Associate Professor<br>
North Carolina State University<br>
<a href="http://www4.ncsu.edu/%7Esbasu5/" target="_blank">http://www4.ncsu.edu/~sbasu5/</a><br>
_______________________________________________<br>
mpich-discuss mailing list     <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<br>
--<br>
This message has been scanned for viruses and<br>
dangerous content by MailScanner, and is<br>
believed to be clean.<br>
<br>
</div></div></blockquote></div><br>