<html>
<body>
<i> I am not sure what I should look for. I have several hundreds of
gram logs -- I checked a few of them and they looked normal (all
approximately the same size). I also didn't see any stderr in my outputs
(usually when the job is killed you get some kind of GRAM and/or PBS
error in stderr.txt file)...<br><br>
</i>The number of jobs in the queue are decreasing -- i.e. the jobs are
finishing and nothing new is submitted...<br><br>
Nika<br><br>
At 05:16 PM 3/21/2007, Mihael Hategan wrote:<br>
<blockquote type=cite class=cite cite>I've never seen this error before,
but it's coming from the GRAM<br>
service. It's not the reason why more jobs were not submitted
properly,<br>
but it may be related to it. My guess is that something happened on
the<br>
server side that caused most jobs to not send notifications and some
(or<br>
one) to fail in that way, and Swift thinks most of these jobs are
still<br>
running.<br><br>
Did the jobs get killed? Do the GRAM logs give any details?<br><br>
Mihael <br><br>
On Wed, 2007-03-21 at 17:08 -0500, Veronika V. Nefedova wrote:<br>
> I've submitted a big job to TG NCSA today. At some point it filled
up the <br>
> PBS queue completely - I had 384 jobs queued/running (thats the
limit). And <br>
> I know that I had many more jobs waiting on my local machine to be
<br>
> submitted to TG. Once the jobs started to leave the queue (i.e. were
<br>
> finished) - no more jobs were submitted. So I have now only 372 jobs
in the <br>
> queue while I should be having 384. Any ideas why is it happening
?<br>
> <br>
> I checked my log on wiggum: <br>
>
/sandbox/ydeng/alamines/swift-MolDyn-free-final-c2eygeq2do861.log<br>
> <br>
> and found this error:<br>
> <br>
> 2007-03-21 15:51:35,963 INFO  vdl:execute2 Running job
chrm_long-8qmvzv8i <br>
> chrm_long with arguments [pstep:40000,
prt<a href="file://\\solv_chg_a3\" eudora="autourl">file:solv_chg_a3</a>,
<br>
> system:solv_m018, stitle:m018,
rtf<a href="file://\\parm03_gaff_all.rtf\" eudora="autourl">file:parm03_gaff_all.rtf</a>,
<br>
>
param<a href="file://\\parm03_gaffnb_all.prm\" eudora="autourl">file:parm03_gaffnb_all.prm</a>,
gaff:m018_am1, vac:, restart:NONE, <br>
> faster:off, rwater:15, chem:chem, minstep:0, rforce:0, ligcrd:lyz,
<br>
> stage:chg, urandseed:4212951, dirname:solv_chg_a3_m018] in <br>
> swift-MolDyn-free-final-c2eygeq2do861/chrm_long-8qmvzv8i on
TG-NCSA<br>
> 2007-03-21 15:51:38,162 DEBUG vdl:execute2 Application exception: It
is <br>
> unknown if the job was submitted<br>
>          task:execute @
vdl-int.k, line: 352<br>
>          vdl:execute2 @
execute-default.k, line: 22<br>
>          vdl:execute @
swift-MolDyn-free-final.kml, line: 142<br>
>          charmm2 @
swift-MolDyn-free-final.kml, line: 155790<br>
>          vdl:mains @
swift-MolDyn-free-final.kml, line: 122678<br>
> Caused by: org.globus.gram.GramException: It is unknown if the job
was <br>
> submitted<br>
> <br>
> I am not sure if its causing the job submission problems ?<br>
> I am using this swift code: /sandbox/nefedova/SWIFT/vdsk-0.1rc2
(with some <br>
> options tweaked in scheduler.xml and swift exec)<br>
> Thanks!<br>
> <br>
> Nika<br>
> <br>
> <br>
> _______________________________________________<br>
> Swift-devel mailing list<br>
> Swift-devel@ci.uchicago.edu<br>
>
<a href="http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel" eudora="autourl">http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel</a><br>
> </blockquote></body>
<br>
</html>