<br><br><div class="gmail_quote">On Sun, Nov 13, 2011 at 9:28 AM, Michael Wilde <span dir="ltr"><<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
2 thoughts here, Ketan:<br>
<br>
- when I tried my manual coaster test, I replaced the options "-n 3 -N 1 -cc none -d 24 -F exclusive" on aprun with simply "-B" which says "use the options from qsub". I was going to go back and see if there was some subtle new mismatch between these qsub and aprun processor-layout options.<br>
</blockquote><div><br></div><div>I tried the -B option:</div><div><br></div><div><div>#CoG This script generated by CoG</div><div>#CoG   by class: class org.globus.cog.abstraction.impl.scheduler.pbs.PBSExecutor</div><div>
#CoG   on date: 2011/11/13 02:16:54</div><div><br></div><div>#PBS -S /bin/bash</div><div>#PBS -N Block-1113-1602</div><div>#PBS -m n</div><div>#PBS -A CI-DEB000002</div><div>#PBS -l mppwidth=3,mppnppn=1,mppdepth=24</div><div>
#PBS -l walltime=00:10:00</div><div>#PBS -o /home/ketan/.globus/scripts/PBS2583661693904024220.submit.stdout</div><div>#PBS -e /home/ketan/.globus/scripts/PBS2583661693904024220.submit.stderr</div><div>WORKER_LOGGING_LEVEL=NONE</div>
<div>#PBS -v WORKER_LOGGING_LEVEL</div><div>cd / && aprun -B /bin/sh -c /bin/date</div><div>/bin/echo $? >/home/ketan/.globus/scripts/PBS2583661693904024220.submit.exitcode</div></div><div><br></div><div>And see the same behavior. The exitcode file is indeed updated each time with a code 0.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>
- I realized that manually testing the swift-generated submit file will give new errors because the swift service is no longer alive and listening on the port that the worker will try to connect to.  Also, it seemed that the .pl file itself that automatic coaster bootstrap places in ~/.globus/coasters was not there. Im assuming that Swift removes these files when it exits, but need to verify that this is true and that the failure is not due to a missing .pl file.  I suspect that this is normal and is not the problem, but again, we need to keep debugging until the root cause is found.</blockquote>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im">
Mike<br>
<br>
<br>
----- Original Message -----<br>
</div><div class="im">> From: "Ketan Maheshwari" <<a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a>><br>
> To: "Michael Wilde" <<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>><br>
> Cc: "Swift Devel" <<a href="mailto:swift-devel@ci.uchicago.edu">swift-devel@ci.uchicago.edu</a>><br>
</div><div><div></div><div class="h5">> Sent: Sunday, November 13, 2011 7:20:25 AM<br>
> Subject: Re: [Swift-devel] swift pbs/beagle broken<br>
> I tried with a simple /bin/date command at the end of the submit<br>
> script removing the call to <a href="http://worker.pl" target="_blank">worker.pl</a> :<br>
><br>
><br>
><br>
> #CoG This script generated by CoG<br>
> #CoG by class: class<br>
> org.globus.cog.abstraction.impl.scheduler.pbs.PBSExecutor<br>
> #CoG on date: 2011/11/13 02:16:54<br>
><br>
><br>
> #PBS -S /bin/bash<br>
> #PBS -N Block-1113-1602<br>
> #PBS -m n<br>
> #PBS -A CI-DEB000002<br>
> #PBS -l mppwidth=3,mppnppn=1,mppdepth=24<br>
> #PBS -l walltime=00:10:00<br>
> #PBS -o<br>
> /home/ketan/.globus/scripts/PBS2583661693904024220.submit.stdout<br>
> #PBS -e<br>
> /home/ketan/.globus/scripts/PBS2583661693904024220.submit.stderr<br>
> WORKER_LOGGING_LEVEL=NONE<br>
> #PBS -v WORKER_LOGGING_LEVEL<br>
> cd / && aprun -n 3 -N 1 -cc none -d 24 -F exclusive /bin/sh -c<br>
> /bin/date<br>
><br>
><br>
> =======<br>
><br>
><br>
> This fails too. The queue cancels the job as soon as it starts<br>
> running, without writing anything to stdout or stderr.<br>
><br>
><br>
><br>
> On Sun, Nov 13, 2011 at 12:54 AM, Michael Wilde < <a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a> ><br>
> wrote:<br>
><br>
><br>
> OK, I dont need these; I can reproduce the problem as well.<br>
><br>
> For some reason, the coaster worker is exiting immediately.<br>
><br>
> I see a few possibilities:<br>
><br>
> - Beagle networking may have changed, making it no longer possible to<br>
> reach the coaster service from the compute nodes using the previous IP<br>
> address ranges.<br>
><br>
> - the <a href="http://worker.pl" target="_blank">worker.pl</a> script is not being created in $HOME/.globus/coasters<br>
><br>
> Mike<br>
><br>
><br>
><br>
><br>
><br>
> ----- Original Message -----<br>
> > From: "Michael Wilde" < <a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a> ><br>
> > To: "Ketan Maheshwari" < <a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a> ><br>
> > Cc: "Swift Devel" < <a href="mailto:swift-devel@ci.uchicago.edu">swift-devel@ci.uchicago.edu</a> ><br>
> > Sent: Saturday, November 12, 2011 8:39:36 PM<br>
> > Subject: Re: [Swift-devel] swift pbs/beagle broken<br>
> > Ketan, can you post the submit script and site file?<br>
> ><br>
> > On 11/12/11, Ketan Maheshwari < <a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a> > wrote:<br>
> > > Hi,<br>
> > ><br>
> > > It seems the pbs-coaster provider (local:pbs) is broken for swift.<br>
> > > I<br>
> > > tried<br>
> > > swift trunk, 0.93 svn branch, 0.93RC3 and 0.93RC4 but getting the<br>
> > > same<br>
> > > response:<br>
> > ><br>
> > > Swift svn swift-r5205 cog-r3293<br>
> > ><br>
> > > RunID: 20111113-0216-1d35h7eb<br>
> > > Progress: time: Sun, 13 Nov 2011 02:16:54 +0000<br>
> > > site setting workersPerNode has been replaced with jobsPerNode!<br>
> > > Progress: time: Sun, 13 Nov 2011 02:17:05 +0000 Active:1<br>
> > > Failed to transfer wrapper log for job cat-1hg8aoik<br>
> > > Exception in cat:<br>
> > > Arguments: [data.txt]<br>
> > > Host: pbs<br>
> > > Directory: catsn-20111113-0216-1d35h7eb/jobs/1/cat-1hg8aoik<br>
> > > stderr.txt:<br>
> > ><br>
> > > stdout.txt:<br>
> > ><br>
> > > ----<br>
> > ><br>
> > > Caused by: Task failed: 1113-160254-000000 Block task ended<br>
> > > prematurely<br>
> > ><br>
> > ><br>
> > > Final status: time: Sun, 13 Nov 2011 02:17:05 +0000 Failed:1<br>
> > > The following errors have occurred:<br>
> > > 1. Task failed: 1113-160254-000000 Block task ended prematurely<br>
> > ><br>
> > ><br>
> > ><br>
> > > Trying the submit script outside of swift also does not seem to be<br>
> > > working.<br>
> > > The scripts get submitted to the queue and immediately exits<br>
> > > without<br>
> > > writing anything to stdout or stderr.<br>
> > ><br>
> > > Were there any recent changes that could have affected this?<br>
> > ><br>
> > > I remember to have tried this successfully in the last week of<br>
> > > last<br>
> > > month.<br>
> > ><br>
> > > Regards,<br>
> > > --<br>
> > > Ketan<br>
> > ><br>
> ><br>
> > --<br>
> > Sent from my mobile device<br>
> > _______________________________________________<br>
> > Swift-devel mailing list<br>
> > <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> > <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
><br>
> --<br>
> Michael Wilde<br>
> Computation Institute, University of Chicago<br>
> Mathematics and Computer Science Division<br>
> Argonne National Laboratory<br>
><br>
><br>
><br>
><br>
><br>
> --<br>
> Ketan<br>
<br>
--<br>
Michael Wilde<br>
Computation Institute, University of Chicago<br>
Mathematics and Computer Science Division<br>
Argonne National Laboratory<br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>Ketan<br><br><br>