<div dir="ltr">It was related to job and wall times. The maxWalltime was set to 18 minutes and maxJobtime to 20 minutes. After completion of first 8 jobs, coaster thinks there is no more time to accommodate anymore jobs.<div><br></div><div>The run completes after setting maxWalltime=4mins and maxJobtime=60mins. Run was configured to start 2 parallel tasks at a time with 64 total tasks each spanning 2-3 sec.<br></div><div><br></div><div>Some notes are below. A few things were not clear from the worker logs which I am trying to study.</div><div><br></div><div>-- Actually, it was not 1 wave, but 4 waves of 2 tasks were executed (in total 8 tasks).</div><div><br></div><div>-- The worker starts twice: first instance shuts down after running 2 waves and idling for 3-4 minutes.</div><div><br></div><div>-- Second instance of worker starts, runs 2 waves of jobs but keeps on idling for more than an half an hour after which I kill the run. In this time, the scheduler job remains in running stage and shuts down when its walltime expires (20 minutes).</div><div><br></div><div>-- Each worker shows 8 process forked and terminated. Totalling 16 processes in all but we see only 8 tasks. My guess is that for each process, worker forks a watchdog/monitor process (I can be wrong here).</div><div><br></div><div>--</div><div>Ketan</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Mar 11, 2015 at 2:21 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="im HOEnZb">And I'd like to know what the issue was!<br>
<br>
Mihael<br>
<br>
On Wed, 2015-03-11 at 14:16 -0500, Ketan Maheshwari wrote:<br>
</span><div class="HOEnZb"><div class="h5">> Hi,<br>
><br>
> Please ignore, this was resolved after discussion and debugging with Mike.<br>
><br>
> --Ketan<br>
><br>
> On Wed, Mar 11, 2015 at 10:33 AM, Ketan Maheshwari <<a href="mailto:ketan@mcs.anl.gov">ketan@mcs.anl.gov</a>><br>
> wrote:<br>
><br>
> > Hi<br>
> ><br>
> > With trunk, coasters on ALCF, I am seeing that after a first wave of jobs<br>
> > finish, the second wave does not start.<br>
> ><br>
> > After the completion of first wave of jobs, the Swift progress text shows<br>
> > jobs in submitted state while the queue (qstat) still shows running status.<br>
> > After a while the queue walltime expires and there are no more new jobs<br>
> > submitted to the queue.<br>
> ><br>
> > Two worker log files are created for the run, possibly the worker shuts<br>
> > down and restarts for a second wave.<br>
> ><br>
> > Attached are the run log and worker logs.<br>
> ><br>
> > Thanks for any help debugging/fixing.<br>
> > --<br>
> > Ketan<br>
> ><br>
</div></div><div class="HOEnZb"><div class="h5">> _______________________________________________<br>
> Swift-devel mailing list<br>
> <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
<br>
<br>
_______________________________________________<br>
Swift-devel mailing list<br>
<a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
<a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
</div></div></blockquote></div><br></div>