<div dir="ltr">So, I tried with this line in sites file but the run crashes with following error messages:<div><br></div><div><div>Execution failed:</div><div>Exception in wrf:</div><div>    Arguments: []</div><div>    Host: edison2</div><div>    Directory: wf.edison-run006/jobs/i/wrf-iuas5r2m</div><div><span class="" style="white-space:pre">      </span>exception @ swift-int.k, line: 530</div><div>Caused by: Block task failed: 0106-1110110-000000 Block task ended prematurely</div><div>Application 9450632 exit codes: 101, 111</div><div>Application 9450632 resources: utime ~25s, stime ~30s, Rss ~8260, inblocks ~425450, outblocks ~28500</div><div><br></div><div> + --------------------------------------------------------------------------</div><div> +        Job name: B0106-1110110-0</div><div> +          Job Id: 2247186.edique02</div><div> +          System: edison</div><div> +     Queued Time: Tue Jan  6 10:11:12 2015</div><div> +      Start Time: Tue Jan  6 10:12:20 2015</div><div> + Completion Time: Tue Jan  6 10:12:32 2015</div><div> +            User: ketan</div><div> +        MOM Host: nid02819</div><div> +           Queue: debug</div><div> +  Req. Resources: mppnodect=25,mppnppn=24,mppwidth=600,walltime=00:29:00</div><div> +  Used Resources: cput=00:00:00,mem=0kb,vmem=0kb,walltime=00:00:12</div><div> +     Acct String: m1540</div><div> +   PBS_O_WORKDIR: /global/u2/k/ketan/wrf</div><div> +     Submit Args: /global/u2/k/ketan/wrf/run006/scripts/PBS4838165627827831510.submit</div><div> + --------------------------------------------------------------------------</div><div><br></div><div><br></div><div>Failed to connect: Network is unreachable at /global/homes/k/ketan/.globus/coasters/<a href="http://cscript3816651147061795773.pl">cscript3816651147061795773.pl</a> line 1101.</div><div>Failed to connect: Network is unreachable at /global/homes/k/ketan/.globus/coasters/<a href="http://cscript3816651147061795773.pl">cscript3816651147061795773.pl</a> line 1101.</div><div>Failed to connect: Network is unreachable at /global/homes/k/ketan/.globus/coasters/<a href="http://cscript3816651147061795773.pl">cscript3816651147061795773.pl</a> line 1101.</div></div><div>....</div><div>....</div><div><<many more such messages>></div><div><br></div><div>This is a different ip that I found from the previous run's logs in a line like this (due to a different login host) :</div><div><br></div><div>2015-01-06 10:01:27,985-0800 INFO  MetaChannel MetaChannel [context: worker-6, boundTo: null] binding to TCPChannel [type: server, contact: <a href="http://128.55.34.27:52189">128.55.34.27:52189</a>]<br></div><div><br></div><div>The rundir is attached.</div><div><br></div><div>--Ketan</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Jan 3, 2015 at 6:09 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">Ok, so I was looking for problems after the first batch of jobs, but<br>
aren't any here.<br>
<br>
The 9 minute delay is because workers try all IP addresses that the head<br>
node has, and it may take a long time to time-out through all of them<br>
until a good one is found.<br>
<br>
You could force a specific IP address (in your case it's probably<br>
128.55.34.2) using:<br>
<br>
<profile namespace="globus" key="internalHostname">128.55.34.2</profile><br>
<br>
</span>Mihael<br>
<span class="im HOEnZb"><br>
On Sat, 2015-01-03 at 16:29 -0600, Ketan Maheshwari wrote:<br>
</span><div class="HOEnZb"><div class="h5">> Yes, this was a different run.<br>
><br>
> Here is the run directory and worker log for a fresh run where I see job in<br>
> running stated for ~9 minutes before Swift status shows task active.<br>
><br>
> Thanks,<br>
> Ketan<br>
><br>
> On Sat, Jan 3, 2015 at 3:53 PM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>> wrote:<br>
><br>
> > Is this from the same run? I don't see delays between the jobs<br>
> > completing and the worker being shut down. Can you also post the swift<br>
> > log that corresponds to this run and confirm that you see the problem in<br>
> > this run?<br>
> ><br>
> > Mihael<br>
> ><br>
> > On Sat, 2015-01-03 at 15:22 -0600, Ketan Maheshwari wrote:<br>
> > > Please find the workerlog attached.<br>
> > ><br>
> > > Thanks,<br>
> > > Ketan<br>
> > ><br>
> > > On Sat, Jan 3, 2015 at 2:39 PM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>><br>
> > wrote:<br>
> > ><br>
> > > > On Tue, 2014-12-30 at 12:49 -0600, Ketan Maheshwari wrote:<br>
> > > > > Hi Mihael,<br>
> > > > ><br>
> > > > > It takes about 8-9 minutes after the worker starting (ie. queue<br>
> > showing<br>
> > > > > running status) that the Swift progress text shows active status. In<br>
> > the<br>
> > > > > active status, one wave of tasks finishes and the status goes back to<br>
> > > > > submit state but now no job shows up in the queue.<br>
> > > ><br>
> > > > I see the problem, but I'm not sure what causes it. Can you enable<br>
> > > > worker logging and send a worker log?<br>
> > > ><br>
> > > > Mihael<br>
> > > ><br>
> > > ><br>
> > > > _______________________________________________<br>
> > > > Swift-user mailing list<br>
> > > > <a href="mailto:Swift-user@ci.uchicago.edu">Swift-user@ci.uchicago.edu</a><br>
> > > > <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user</a><br>
> > > ><br>
> ><br>
> ><br>
> > _______________________________________________<br>
> > Swift-user mailing list<br>
> > <a href="mailto:Swift-user@ci.uchicago.edu">Swift-user@ci.uchicago.edu</a><br>
> > <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user</a><br>
> ><br>
<br>
<br>
_______________________________________________<br>
Swift-user mailing list<br>
<a href="mailto:Swift-user@ci.uchicago.edu">Swift-user@ci.uchicago.edu</a><br>
<a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user</a><br>
</div></div></blockquote></div><br></div>