Hi Iman,<div><br></div><div>On the worker nodes, do you see <a href="http://worker.pl">worker.pl</a> running? That must be running for any work to happen on those nodes.<br><br>Another possibility is that the workers on nodes are not seeing the service running on 10.x.y.z ip. If the service is running on an EC2 node, you will see another ip which you might try by putting in your sites file service url.</div>
<div><br></div><div> <br><div class="gmail_quote">On Tue, Oct 23, 2012 at 6:46 PM, Iman Sadooghi <span dir="ltr"><<a href="mailto:isadoogh@iit.edu" target="_blank">isadoogh@iit.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi everyone<div><br></div><div>I am trying to run a Montage application workflow with swift on multiple instances of AMAZON EC2.</div><div>So far I was able to set up a cluster, and a PVFS files system shared among the nodes ( using FUSE. so I will have POSIX interface on my <b>swift work directory</b>).</div>


<div>I have tried running a simple hello.swift example on multiple nodes with the coaster. the working directory is the shared folder (supported by PVFS).</div><div>when I run the code using my own tc.data and sites.xml, this will happen:</div>


<div><br></div><div><div>(my command) ubuntu@ip-10-244-4-101:~/coaster$ swift -tc.file tc.data -sites.file sites.xml  ~/swift-0.93/examples/swift/tutorial/hello.swift </div><div>(results:)</div><div>Swift 0.93 swift-r5483 cog-r3339</div>


<div><br></div><div>RunID: 20121023-2200-4d3knr72</div><div>Progress:  time: Tue, 23 Oct 2012 22:00:50 +0000</div><div>Find: <a href="http://10.244.4.101:1213" target="_blank">http://10.244.4.101:1213</a></div><div>Find:  keepalive(120), reconnect - <a href="http://10.244.4.101:1213" target="_blank">http://10.244.4.101:1213</a></div>


<div>Passive queue processor initialized. Callback URI is <a href="http://10.244.4.101:1212" target="_blank">http://10.244.4.101:1212</a></div><div>Progress:  time: Tue, 23 Oct 2012 22:01:20 +0000  Submitted:1</div><div>
Progress:  time: Tue, 23 Oct 2012 22:01:50 +0000  Submitted:1</div>

<div>Progress:  time: Tue, 23 Oct 2012 22:02:20 +0000  Submitted:1</div><div>Progress:  time: Tue, 23 Oct 2012 22:02:50 +0000  Submitted:1</div><div>Progress:  time: Tue, 23 Oct 2012 22:03:20 +0000  Submitted:1</div><div>


Progress:  time: Tue, 23 Oct 2012 22:03:50 +0000  Submitted:1</div><div>Progress:  time: Tue, 23 Oct 2012 22:04:20 +0000  Submitted:1</div><div><br></div><div>and it keeps doing this forever meaning that there is no answer from worker nodes!</div>


<div>as I checked on worker nodes, the working files are created on the shared folder, and when i check the running applications, there is a java application running. but nothing happens.</div><div>I have also attached the log file of my hello.swift running in case you need to take a look at it.</div>


<div>should I consider using pbs, or condor,... I have no idea about how they work though.</div><div><br></div><div>I appreciate if anyone can help me with it. Thank you so much.</div><br clear="all"><div>Best,</div><span class="HOEnZb"><font color="#888888">-- <br>


<span>Iman Sadooghi</span><br><span>Illinois Institute of Technology (IIT)</span><br><span>Data-Intensive Distributed Systems Laboratory</span><br> <br>
</font></span></div>
<br>_______________________________________________<br>
Swift-user mailing list<br>
<a href="mailto:Swift-user@ci.uchicago.edu">Swift-user@ci.uchicago.edu</a><br>
<a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-user</a><br></blockquote></div><br><br clear="all"><div><br></div>-- <br>
<font face="'courier new', monospace">Ketan</font><br><br><br>
</div>