<div dir="ltr">Slow network looks unlikely to be a cause:<div><br></div><div>I tried with 1 app call, total I/O size less than 20KB and a job wall-time of 40 minutes. I still see the hang. The output files produced by the app do end up in the outdir.</div><div><br></div><div>Another observation is that despite 40 minutes of walltime, the application crashes in 2 minutes with a message saying walltime exceeded, as follows:</div><div><br></div><div><div><br></div><div><span class="" style="white-space:pre">    </span>exception @ swift-int-staging.k, line: 160</div><div>Caused by: Walltime exceeded</div><div><br></div><div><span class="" style="white-space:pre">     </span>k:assign @ swift.k, line: 174</div><div>Caused by: Exception in bgsh:</div><div>    Arguments: [/home/ketan/SwiftApps/subjobs/mpicatsnsleep/mpicatnap, /gpfs/mira-home/ketan/SwiftApps/subjobs/mpicatsnsleep/./data.txt, /gpfs/mira-home/ketan/SwiftApps/subjobs/mpicatsnsleep/./outdir/f.0001.out, 1]</div><div>    Host: cluster</div><div>    Directory: catsnsleepmpi-run001/jobs/b/bgsh-k7exhe5m</div><div><span class="" style="white-space:pre">        </span>exception @ swift-int-staging.k, line: 165</div></div><div><br></div><div>--Ketan</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 3, 2015 at 2:51 PM, Hategan-Marandiuc, Philip M. <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">With direct "staging" and a slow network FS, the application run time<br>
will go up. This is why in many cases "avoid NFS/gpfs" is a good<br>
strategy.<br>
<br>
What happens if you increase the walltime for your jobs?<br>
<br>
Mihael<br>
<div><div class="h5"><br>
On Tue, 2015-03-03 at 14:01 -0600, Ketan Maheshwari wrote:<br>
> Hi,<br>
><br>
> Continuing the discussion on devel. It seems that the run worked after I<br>
> changed the staging method from "direct" to "swift".<br>
><br>
> I am trying to narrow down the cause why "direct" staging does not work.<br>
> Any pointers to possible causes will help.<br>
><br>
> Thanks,<br>
> Ketan<br>
</div></div>> _______________________________________________<br>
> Swift-devel mailing list<br>
> <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
<br>
<br>
</blockquote></div><br></div>