<div dir="ltr">Yep, it's with coasters local:slurm</div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Sep 23, 2014 at 6:09 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Is this with coasters?<br>
<br>
Mihael<br>
<div><div class="h5"><br>
On Mon, 2014-09-22 at 13:50 -0500, David Kelly wrote:<br>
> When running psims on Midway, we set our scratch directory set to<br>
> /scratch/local (a local disk mounted on each node). Occasionally<br>
> /scratch/local gets full or becomes unmounted. When this happens, jobs are<br>
> quickly and repeatedly sent to this bad node and get marked as failed.<br>
><br>
> Here are some ideas about how Swift could handle this better:<br>
><br>
> The Swift/swiftwrap error messages don't identify which node the directory<br>
> creation failed on, which makes it difficult to report these errors to<br>
> cluster admins.<br>
><br>
> If swiftwrap fails to create a job directory, the node could get marked as<br>
> 'bad' and prevent jobs from running there.<br>
><br>
> An alternative would be to have a rule says, if using more than one node,<br>
> never re-run a failed task on the same node. It could still be possible for<br>
> a task to hit multiple bad nodes, but much less likely.<br>
</div></div>> _______________________________________________<br>
> Swift-devel mailing list<br>
> <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
<br>
<br>
</blockquote></div><br></div>