Mihael,<div><br></div><div>I have the logs now. Filed as bug 690:</div><div><br></div><div><a href="https://bugzilla.mcs.anl.gov/swift/show_bug.cgi?id=690">https://bugzilla.mcs.anl.gov/swift/show_bug.cgi?id=690</a><br><br>
Regards,</div><div>Ketan</div><div><br><div class="gmail_quote">On Mon, Jan 16, 2012 at 2:24 PM, Ketan Maheshwari <span dir="ltr"><<a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Mihael,<div><br></div><div>Please find service log here:  <a href="http://ci.uchicago.edu/~ketan/swift.log.tar.gz" target="_blank">http://ci.uchicago.edu/~ketan/swift.log.tar.gz</a><br>
<br>worker logs seems to have lost. I'll see if I can find'em.<br>
<br>Regards,</div><div>Ketan</div><div><div><div></div><div class="h5"><br><div class="gmail_quote">On Mon, Jan 16, 2012 at 1:38 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Nothing interesting there. Do you also happen to have the service and<br>
worker logs?<br>
<div><div></div><div><br>
On Mon, 2012-01-16 at 11:05 -0600, Ketan Maheshwari wrote:<br>
> Hi Mihael,<br>
><br>
><br>
> I could reproduce this timeout exception on OSG with catsn Swift jobs.<br>
><br>
><br>
> These are 100 jobs with a data size of 10MB each. So, 2000MB of data<br>
> movement in all.<br>
><br>
><br>
> I tried with 1 worker running on a single OSG site. I tried three<br>
> different OSG sites: Nebraska, UChicago and RENCI.<br>
><br>
><br>
> In each of these cases, I run into the following timeout after ~4<br>
> minutes of run (15-70 jobs complete during this period) . :<br>
><br>
><br>
> Timeout<br>
> org.globus.cog.karajan.workflow.service.TimeoutException: Handler(562,<br>
> PUT): timed out receiving request. Last time 940817-011255.807, now:<br>
> 120115-194100.072<br>
> at<br>
> org.globus.cog.karajan.workflow.service.handlers.RequestHandler.handleTimeout(RequestHandler.java:124)<br>
> at<br>
> org.globus.cog.karajan.workflow.service.channels.AbstractKarajanChannel.checkTimeouts(AbstractKarajanChannel.java:131)<br>
> at<br>
> org.globus.cog.karajan.workflow.service.channels.AbstractKarajanChannel.checkTimeouts(AbstractKarajanChannel.java:123)<br>
> at<br>
> org.globus.cog.karajan.workflow.service.channels.AbstractKarajanChannel$1.run(AbstractKarajanChannel.java:116)<br>
> at java.util.TimerThread.mainLoop(Timer.java:512)<br>
> at java.util.TimerThread.run(Timer.java:462)<br>
> Command(168, SUBMITJOB): handling reply timeout;<br>
> sendReqTime=120115-193900.255, sendTime=120115-193900.255,<br>
> now=120115-194100.416, channel=SC-null<br>
><br>
><br>
> This is followed by messages similar to the above last line but the<br>
> progress of workflow halts.<br>
><br>
><br>
> Here is the tarball of the<br>
> experiment: <a href="http://ci.uchicago.edu/~ketan/catsn-exp-formihael.tgz" target="_blank">http://ci.uchicago.edu/~ketan/catsn-exp-formihael.tgz</a><br>
><br>
><br>
> It contains a README which has the steps to run: basically<br>
> start-service on localhost -> start worker on OSG site -> run swift<br>
><br>
><br>
> Regards,<br>
> --<br>
> Ketan<br>
><br>
><br>
><br>
<br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div></div></div><font color="#888888">-- <br>Ketan<br><br><br>
</font></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>Ketan<br><br><br>
</div>