David,<br><br>I will give this a try, thanks.<br><br><div class="gmail_quote">On Fri, May 11, 2012 at 5:15 PM, David Knaak <span dir="ltr">&lt;<a href="mailto:knaak@cray.com" target="_blank">knaak@cray.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Rob,<br>
<br>
I suggested taking the discussion off line to not bother those not<br>
interested in the Cray specifics.  But if you think those on the list<br>
are either interested, or don&#39;t consider it a bother, I can certainly<br>
use the full list.<br>
<br>
All,<br>
<br>
In the MPT 5.4.0 release, I made some changes to MPI_File_open to<br>
improve scalability.  Because of these changes and previous changes<br>
I had made (for added functionality, not because of any bugs), the<br>
code was getting very messy.  In fact, I introduced a bug or 2 with<br>
these changes.  So in 5.4.3, I significantly restructured the code<br>
for better maintainability, fixed the bugs (that I knew of) and made<br>
more scalability changes.<br>
<br>
Jim,<br>
<br>
The NCSA&#39;s &quot;ESS&quot; has the 5.4.2 version of Cray&#39;s MPI implementation as<br>
default.  The &quot;module list&quot; command output that you included shows:<br>
<br>
   3) xt-mpich2/5.4.2<br>
<br>
The &quot;module avail xt-mpch2&quot; command shows what other versions are<br>
available:<br>
<br>
h2ologin2 25=&gt;module avail xt-mpich2<br>
--------------------- /opt/cray/modulefiles ---------------------<br>
xt-mpich2/5.4.2(default)     xt-mpich2/5.4.4       xt-mpich2/5.4.5<br>
<br>
Would you switch to 5.4.5, relink, and try again?<br>
<br>
h2ologin2 25=&gt;module swap xt-mpich2/5.4.2 xt-mpich2/5.4.5<br>
<br>
Thanks.<br>
<span class="HOEnZb"><font color="#888888">David<br>
</font></span><div><div class="h5"><br>
<br>
On Fri, May 11, 2012 at 12:54:39PM -0500, Rob Latham wrote:<br>
&gt; On Fri, May 11, 2012 at 11:46:25AM -0500, David Knaak wrote:<br>
&gt; &gt; Jim,<br>
&gt; &gt;<br>
&gt; &gt; Since you are having this problem on a Cray system, please open a Cray<br>
&gt; &gt; bug report against MPI and I will look at it.  We can take further<br>
&gt; &gt; discussions off line.<br>
&gt;<br>
&gt; Oh, howdy David! forgot you were on the list.  Thanks for keeping an<br>
&gt; eye on things.<br>
&gt;<br>
&gt; the pnetcdf list is pretty low-traffic these days, but we have an<br>
&gt; awful lot of users in a cray and Lustre environment.   If you&#39;d rather<br>
&gt; discuss cray specific stuff elsewhere, I&#39;d understand, but please let<br>
&gt; us know what you figure out.<br>
&gt;<br>
&gt; ==rob<br>
&gt;<br>
&gt; &gt; Thanks.<br>
&gt; &gt; David<br>
&gt; &gt;<br>
&gt; &gt; On Fri, May 11, 2012 at 10:03:28AM -0600, Jim Edwards wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Fri, May 11, 2012 at 9:43 AM, Rob Latham &lt;<a href="mailto:robl@mcs.anl.gov">robl@mcs.anl.gov</a>&gt; wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     On Thu, May 10, 2012 at 03:28:57PM -0600, Jim Edwards wrote:<br>
&gt; &gt; &gt;     &gt; This occurs on the ncsa machine bluewaters.   I am using pnetcdf1.2.0 and<br>
&gt; &gt; &gt;     &gt; pgi 11.10.0<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     need one more bit of information: the version of MPT you are using.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Sorry, what&#39;s mpt?  MPI?<br>
&gt; &gt; &gt; Currently Loaded Modulefiles:<br>
&gt; &gt; &gt;   1) modules/<a href="http://3.2.6.6" target="_blank">3.2.6.6</a>                       9)<br>
&gt; &gt; &gt; user-paths                           17) xpmem/0.1-2.0400.31280.3.1.gem<br>
&gt; &gt; &gt;   2) xtpe-network-gemini                  10) pgi/<br>
&gt; &gt; &gt; 11.10.0                          18) xe-sysroot/4.0.46<br>
&gt; &gt; &gt;   3) xt-mpich2/5.4.2                      11) xt-libsci/<br>
&gt; &gt; &gt; 11.0.04                    19) xt-asyncpe/5.07<br>
&gt; &gt; &gt;   4) xtpe-interlagos                      12) udreg/<br>
&gt; &gt; &gt; 2.3.1-1.0400.4264.3.1.gem      20) atp/1.4.1<br>
&gt; &gt; &gt;   5) eswrap/1.0.12                        13) ugni/<br>
&gt; &gt; &gt; 2.3-1.0400.4374.4.88.gem        21) PrgEnv-pgi/4.0.46<br>
&gt; &gt; &gt;   6) torque/2.5.10                        14) pmi/<br>
&gt; &gt; &gt; 3.0.0-1.0000.8661.28.2807.gem    22) hdf5-parallel/1.8.7<br>
&gt; &gt; &gt;   7) moab/6.1.5                           15) dmapp/<br>
&gt; &gt; &gt; 3.2.1-1.0400.4255.2.159.gem    23) netcdf-hdf5parallel/4.1.3<br>
&gt; &gt; &gt;   8) scripts                              16) gni-headers/<br>
&gt; &gt; &gt; 2.1-1.0400.4351.3.1.gem  24) parallel-netcdf/1.2.0<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     &gt; The issue is that calling nfmpi_createfile would sometimes result in an<br>
&gt; &gt; &gt;     &gt; error:<br>
&gt; &gt; &gt;     &gt;<br>
&gt; &gt; &gt;     &gt; MPI_File_open : Other I/O error , error stack:<br>
&gt; &gt; &gt;     &gt; (unknown)(): Other I/O error<br>
&gt; &gt; &gt;     &gt; 126: MPI_File_open : Other I/O error , error stack:<br>
&gt; &gt; &gt;     &gt; (unknown)(): Other I/O error<br>
&gt; &gt; &gt;     &gt;   Error on create :           502          -32<br>
&gt; &gt; &gt;     &gt;<br>
&gt; &gt; &gt;     &gt; The error appears to be intermittent and I could not get it to occur at<br>
&gt; &gt; &gt;     all<br>
&gt; &gt; &gt;     &gt; on a small number of tasks (160) but it occurs with high frequency when<br>
&gt; &gt; &gt;     &gt; using a larger number of tasks (&gt;=1600).    I traced the problem to the<br>
&gt; &gt; &gt;     use<br>
&gt; &gt; &gt;     &gt; of nf_clobber in the mode argument, removing the nf_clobber seems to have<br>
&gt; &gt; &gt;     &gt; solved the problem and I think that create implies clobber anyway doesn&#39;t<br>
&gt; &gt; &gt;     &gt; it?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     &gt; Can someone who knows what is going on under the covers enlighten me<br>
&gt; &gt; &gt;     &gt; with some understanding of this issue?   I suspect that one task is<br>
&gt; &gt; &gt;     trying<br>
&gt; &gt; &gt;     &gt; to clobber the file that another has just created or something of that<br>
&gt; &gt; &gt;     &gt; nature.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     Unfortunately, &quot;under the covers&quot; here means &quot;inside the MPI-IO<br>
&gt; &gt; &gt;     library&quot;, which we don&#39;t have access to.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     in the create case we call MPI_File_open with &quot;MPI_MODE_RDWR |<br>
&gt; &gt; &gt;     MPI_MODE_CREATE&quot;, and  if noclobber set, we add MPI_MODE_EXCL.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     OK, so that&#39;s pnetcdf.  What&#39;s going on in MPI-IO?  Well, cray&#39;s based<br>
&gt; &gt; &gt;     their MPI-IO off of our ROMIO, but I&#39;m not sure which version.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     Let me cook up a quick MPI-IO-only test case you can run to trigger<br>
&gt; &gt; &gt;     this problem and then you can beat cray over the head with it.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Sounds good, thanks.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     ==rob<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;     --<br>
&gt; &gt; &gt;     Rob Latham<br>
&gt; &gt; &gt;     Mathematics and Computer Science Division<br>
&gt; &gt; &gt;     Argonne National Lab, IL USA<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; --<br>
&gt; &gt; &gt; Jim Edwards<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; CESM Software Engineering Group<br>
&gt; &gt; &gt; National Center for Atmospheric Research<br>
&gt; &gt; &gt; Boulder, CO<br>
&gt; &gt; &gt; <a href="tel:303-497-1842" value="+13034971842">303-497-1842</a><br>
&gt; &gt; &gt;<br>
&gt; &gt;<br>
&gt;<br>
&gt; --<br>
&gt; Rob Latham<br>
&gt; Mathematics and Computer Science Division<br>
&gt; Argonne National Lab, IL USA<br>
<br>
</div></div>--<br>
</blockquote></div><br><br clear="all"><br>-- <br>Jim Edwards<br><br><font>CESM Software Engineering Group<br>National Center for Atmospheric Research<br>Boulder, CO <br>303-497-1842<br></font><br>