Hi,<div><br></div><div>I am trying to run the GE mars script on a bag of workstations. I tested the script for a sufficient number of tasks and seems to be working fine on localhost.</div><div><br></div><div>However, it fails in this setup. I get the error message as follows after seemingly right invocation:</div>
<div><br></div><div><div><div>Find:  keepalive(120), reconnect - <a href="http://128.84.97.46:41287">http://128.84.97.46:41287</a></div><div>Progress:  time: Mon, 21 May 2012 14:43:18 -0400  Stage in:7  Submitted:3</div><div>
Progress:  time: Mon, 21 May 2012 14:43:19 -0400  Stage in:8  Active:2</div><div>Deep recursion on subroutine "main::stageout" at /home/ketan/work/<a href="http://worker.pl">worker.pl</a> line 1349.</div><div>Deep recursion on subroutine "main::stageout" at /home/ketan/work/<a href="http://worker.pl">worker.pl</a> line 1349.</div>
<div>Progress:  time: Mon, 21 May 2012 14:43:20 -0400  Active:3  Stage out:7</div></div><div><br></div><div>Obviously the staging out of results fails and seems that the number of files in the stageout stage is causing the error. The application needs to stage out about 120 files.</div>
<div><br></div><div>One solution I could quickly think of is to wrap the app in a shell and zip the outputs making it just one staged out file. </div><div><br></div><div>However, the current setup would still be useful since we are trying to compare the existing Hadoop solution with the Swift one.</div>
<div><br></div><div>Is there any possible workaround, some env setting or so that I could try and get the stageout going?</div><div><br></div><div>The logs are: <a href="http://www.mcs.anl.gov/~ketan/mars-20120521-1443-d6q9lr0a.log">http://www.mcs.anl.gov/~ketan/mars-20120521-1443-d6q9lr0a.log</a></div>
<div>and <a href="http://www.mcs.anl.gov/~ketan/workerlogs.tgz">http://www.mcs.anl.gov/~ketan/workerlogs.tgz</a></div><div><br></div><div><br></div><div>Regards,</div>-- <br><font face="'courier new', monospace">Ketan</font><br>
<br><br>
</div>