<br><div class="gmail_quote">On Wed, Jun 29, 2011 at 1:32 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
I strongly suspect that the hangs are not due to the hang checker.<br></blockquote><div><br>This may be right. After many experiments (about 20) with large scale (upto 60-slots, 4-node) submissions with trunk, it seems that the jobs just do not get submitted after a low arbitrary submissions.<br>
<br>Things that I observe with trunk on Beagle:<br><br>1. Disproportionate number of stage-ins happen when compared to the intended number of jobs: for a 10-slot 4-node setup, 4980 stage-ins<br><br>2. The submit file created contained "node=" lined for 4-node jobs and not for 2-node ones. I changed the use.mppwidth=false entry in provider-pbs.properties to true. However, I do not know why this was happening for 4-node jobs and not for the 2-node ones.<br>
<br>3. I see intermittent write failures from pbs to the swift.workdir with "failed to transfer wrapper log messages".<br><br>Debugging more.<br><br>Ketan<br><br><br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<div><div></div><div class="h5"><br>
On Wed, 2011-06-29 at 13:02 -0500, Ketan Maheshwari wrote:<br>
><br>
> I built Swift with this change and submitted a run with throttle value<br>
> of 3600 app tasks. It seems to be working. I see 3600 PBS jobs have<br>
> been submitted to Beagle.<br>
><br>
><br>
> On Wed, Jun 29, 2011 at 11:48 AM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>><br>
> wrote:<br>
>         On Wed, 2011-06-29 at 11:36 -0500, Ketan Maheshwari wrote:<br>
><br>
>         > To confirm the hypothesis, could you indicate how could I<br>
>         disable the<br>
>         > hangchecker or increase the time period before it gets<br>
>         invoked.<br>
><br>
><br>
>         in Loader.main(), comment out the 'new<br>
>         HangChecker(stack).start()' line.<br>
><br>
><br>
><br>
><br>
> --<br>
> Ketan<br>
><br>
><br>
<br>
<br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Ketan<br><br><br>