Hi Rob,<br><br>I am getting different errors depending on the platform I am running on - the only one that is clearly an mpi problem is edinburgh  with mpich-1.2.7p1 - so I will request an update to mpich2.   <br><br>I am working on debugging on jaguar - if you have an account there maybe you could have a look?  /tmp/work/jedwards/testpio/all.asb04    There is a problem where something is not being communicated or is communicated incorrectly, i&#39;ve yet to find the source.<br>
<br>Bluegene also has problems I&#39;ve yet to look into - I suspect I just need to dig deeper.    <br><br><br><br><div class="gmail_quote">On Tue, Jul 20, 2010 at 11:41 AM, Rob Latham <span dir="ltr">&lt;<a href="mailto:robl@mcs.anl.gov">robl@mcs.anl.gov</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
(please keep Jim cc&#39;ed on followups, thanks)<br>
<br>
On Tue, Jul 20, 2010 at 11:32:16AM -0500, Dave Goodell wrote:<br>
&gt; Intercommunicators are definitely supported in MPICH2.  You probably<br>
&gt; have MPICH installed instead, which does not support<br>
&gt; intercommunicators (nor is it supported in general).<br>
<br>
Jim does explicitly mention the Cray.  Any chance that Jaguar is<br>
running some old version of MPICH2 with a shoddy intercommunicator<br>
support?<br>
<br>
Jim is also coming from AIX: do you know of anything about the IBM<br>
intercommunicator support that might make the transition to MPICH2<br>
odd?  (due to, say, defects in either the IBM or MPICH2<br>
implementation:  as we know, the standard is one thing but<br>
implementations have varying degrees of &quot;quality&quot;)<br>
<br>
&gt; Point-to-point performance in intercommunicators should generally be<br>
&gt; identical to performance in intracommunicators.  Collective<br>
&gt; communication routines for intercommunicators have not been<br>
&gt; extensively tuned, so they may not quite perform as well as they<br>
&gt; could, depending on the particular collective and way it is invoked.<br>
<br>
Well there you have it, Jim: it&#39;s supposed to &quot;just work&quot;.  Perhaps<br>
you can tell us a bit more about how you are creating the<br>
intercommunicators and how you are using them?<br>
<br>
==rob<br>
<br>
&gt;<br>
&gt; On Jul 20, 2010, at 8:05 AM CDT, Rob Latham wrote:<br>
&gt;<br>
&gt; &gt; Hi Jim.  I&#39;m interested in hearing more about how this async i/o<br>
&gt; &gt; strategy plays out on other platforms.<br>
&gt; &gt;<br>
&gt; &gt; I&#39;m moving this to the mpich-discuss list, because as far as I know<br>
&gt; &gt; intercommunicators are supported on MPICH2, but the folks on the<br>
&gt; &gt; mpich-discuss list will be able to speak with more authority on that<br>
&gt; &gt; matter.<br>
&gt; &gt;<br>
&gt; &gt; What is it about intercommunicators that does not work for you?  Are<br>
&gt; &gt; you splitting up COMM_WORLD to form comp_comm and io_comm ?<br>
&gt; &gt;<br>
&gt; &gt; There might be performance implications with intercommunicators.  Can<br>
&gt; &gt; the link between the two sets be the bottleneck here?  I presume  you<br>
&gt; &gt; are transferring a lot of data to io_comm.<br>
&gt; &gt;<br>
&gt; &gt; MPICH guys, Jim&#39;s original email is below.<br>
&gt; &gt; ==rob<br>
&gt; &gt;<br>
&gt; &gt; On Mon, Jul 19, 2010 at 04:44:50PM -0600, Jim Edwards wrote:<br>
&gt; &gt;&gt; Hi All,<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; I have created a new repository branch and checked in the beginnings of a<br>
&gt; &gt;&gt; version of pio which allows the io tasks to be a disjoint set of tasks from<br>
&gt; &gt;&gt; those used for computation.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; The io_comm and the comp_comm are disjoint and pio_init<br>
&gt; &gt;&gt; is called with an intercommunicator which spans the two task sets.   The<br>
&gt; &gt;&gt; compute task set returns while the io task set waits in a call back loop for<br>
&gt; &gt;&gt; further instructions.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; I have added three new tests in the pio test suite and all of them pass on<br>
&gt; &gt;&gt; bluefire.   Then I discovered that the mpich  does not support mpi<br>
&gt; &gt;&gt; intercommunicators.    These are part of the mpi-2 standard and I thought<br>
&gt; &gt;&gt; that all of the mpi implementations were there by now?  Apparently not.   Is<br>
&gt; &gt;&gt; there another mpi implementation that we can try on jaguar or edinburgh?<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Currently all of the pio commands are still syncronous calls - that is the<br>
&gt; &gt;&gt; compute tasks cannot continue until the write has completed, my eventual<br>
&gt; &gt;&gt; plan is to relax this requirement to see if there is a performance advantage<br>
&gt; &gt;&gt; - but if AIX-POE is the only environment to support this model I may have to<br>
&gt; &gt;&gt; rethink the approach.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; If you get a chance please have a look at the implementation in<br>
&gt; &gt;&gt; <a href="https://parallelio.googlecode.com/svn/branches/async_pio1_1_1/" target="_blank">https://parallelio.googlecode.com/svn/branches/async_pio1_1_1/</a><br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; If enough of you are interested we can schedule a con-call to go over how it<br>
&gt; &gt;&gt; works and some of the things that still need to be done.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Jim<br>
&gt; &gt;&gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Rob Latham<br>
&gt; &gt; Mathematics and Computer Science Division<br>
&gt; &gt; Argonne National Lab, IL USA<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; mpich-discuss mailing list<br>
&gt; &gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; &gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; mpich-discuss mailing list<br>
&gt; <a href="mailto:mpich-discuss@mcs.anl.gov">mpich-discuss@mcs.anl.gov</a><br>
&gt; <a href="https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss" target="_blank">https://lists.mcs.anl.gov/mailman/listinfo/mpich-discuss</a><br>
<font color="#888888"><br>
--<br>
Rob Latham<br>
Mathematics and Computer Science Division<br>
Argonne National Lab, IL USA<br>
</font></blockquote></div><br>