<div dir="ltr">I tested this successfully from communicado into Stampede. <div><br></div><div style>One tricky issue I fell into was that ibrun on Stampede checks for keys in ~/.ssh originally generated by stampede at the time of first login. I replaced them with my own keypair that I use on other machines. </div>
<div style><br></div><div style>This was causing the jobs to subtly fail without any explicit error message on stderr of Swift nor on the gram log.</div><div style><br></div><div style>The issue was resolved after digging into Stampede manual and confirming with a similar buried post on xsede forum.</div>
<div style><br></div><div style>Thanks,</div><div style>Ketan</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Apr 25, 2013 at 9:25 AM, Michael Wilde <span dir="ltr"><<a href="mailto:wilde@mcs.anl.gov" target="_blank">wilde@mcs.anl.gov</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">David, this sounds great - nice work.<br>
<br>
Can you test with multiple, mixed sites and provider and gridftp<br>
staging? Try e.g. Stampede+trestles(+midway+beagle+kraken)<br>
<br>
Also gt2:slurm:slurm might work well.<br>
<br>
Please add this all to the site guide (ideally with a diagram).<br>
<br>
Mihael, how hard would it be to make ssh-cl:slurm:slurm to work? I.e.<br>
start the coaster service ond the remote site as a slurm job instaed<br>
of on the login host, which is the objective of this configuration.<br>
<br>
Very cool.<br>
<br>
- Mike<br>
<div class="im"><br>
On 4/24/13, David Kelly <<a href="mailto:davidk@ci.uchicago.edu">davidk@ci.uchicago.edu</a>> wrote:<br>
> Ketan,<br>
><br>
><br>
> I have gram working to Stampede now. Given the restrictions about running<br>
> swift on the head nodes, I think this is the way to go. I'll add this info<br>
> to the site guide, but for now here is a quick overview of what's needed.<br>
><br>
><br>
> Get a proxy: myproxy-logon -l username -s <a href="http://myproxy.teragrid.org" target="_blank">myproxy.teragrid.org</a><br>
><br>
><br>
> Make sure you have GLOBUS_HOSTNAME and GLOBUS_TCP_PORT_RANGE defined<br>
> correctly.<br>
><br>
><br>
</div>> Use something like this for your sites .xml (with work directory, project,<br>
<div class="HOEnZb"><div class="h5">> and throttle adjusted as needed)<br>
> ---<br>
><br>
><br>
> <config><br>
> <pool handle="stampede"><br>
> <execution provider="coaster" jobmanager="gt2:gt2:slurm"<br>
> url="<a href="http://login5.stampede.tacc.utexas.edu:2119/jobmanager-slurm" target="_blank">login5.stampede.tacc.utexas.edu:2119/jobmanager-slurm</a>"/><br>
> <filesystem provider="gsiftp"<br>
> url="gsiftp://<a href="http://gridftp.stampede.tacc.utexas.edu:2811" target="_blank">gridftp.stampede.tacc.utexas.edu:2811</a>"/><br>
> <profile namespace="globus" key="jobsPerNode">16</profile><br>
> <profile namespace="globus" key="ppn">16</profile><br>
> <profile namespace="globus" key="maxTime">3600</profile><br>
> <profile namespace="globus" key="maxwalltime">00:05:00</profile><br>
> <profile namespace="globus" key="lowOverallocation">100</profile><br>
> <profile namespace="globus" key="highOverallocation">100</profile><br>
> <profile namespace="globus" key="queue">normal</profile><br>
> <profile namespace="globus" key="nodeGranularity">1</profile><br>
> <profile namespace="globus" key="maxNodes">1</profile><br>
> <profile namespace="globus" key="project">TG-EAR130015</profile><br>
> <profile namespace="karajan" key="jobThrottle">.3199</profile><br>
> <profile namespace="karajan" key="initialScore">10000</profile><br>
> <workdirectory>/scratch/01503/davidkel</workdirectory><br>
> </pool><br>
> </config><br>
> ---<br>
><br>
><br>
> You'll also need the latest version of Swift from SVN. Swift was setting<br>
> some invalid gram RSL attributes that were causing jobs to fail. I added a<br>
> check to verify only valid attributes get set now. I've tested this with a<br>
> simple swift script that calls /bin/hostname and it ran across multiple<br>
> Stampede nodes. I haven't tested it with any larger applications yet -<br>
> please let me know if you run into any problems with it.<br>
><br>
><br>
> Thanks,<br>
> David<br>
</div></div><div class="HOEnZb"><div class="h5">> ----- Original Message -----<br>
><br>
><br>
> From: "Michael Wilde" <<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>><br>
> To: "Swift Devel" <<a href="mailto:swift-devel@ci.uchicago.edu">swift-devel@ci.uchicago.edu</a>><br>
> Sent: Wednesday, April 17, 2013 3:51:31 PM<br>
> Subject: [Swift-devel] auto-coaster bootstrap for stampede cluster<br>
><br>
><br>
> I'm moving this topic to swift-devel, so others, in particular Mihael, can<br>
> weigh in.<br>
><br>
> - Mike<br>
><br>
> ----- Forwarded Message -----<br>
> From: "David Kelly" <<a href="mailto:davidk@ci.uchicago.edu">davidk@ci.uchicago.edu</a>><br>
> To: "Ketan Maheshwari" <<a href="mailto:ketan@mcs.anl.gov">ketan@mcs.anl.gov</a>><br>
> Cc: "Wilde" <<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>><br>
> Sent: Wednesday, April 17, 2013 3:45:30 PM<br>
> Subject: Fwd: auto-coaster bootstrap for stamped<br>
><br>
> Hey Ketan,<br>
><br>
> Mike mentioned that you were interested in running remotely to Stampede via<br>
> ssh-cl. Normally we could use ssh-cl like any other site, but the problem we<br>
> ran into here is that we can't run Swift on the stampede head node. We need<br>
> to ssh-cl AND also start swift on a remote worker node, which is a setup<br>
> that hasn't been tested very much.<br>
><br>
> I believe you've used start-coaster-service before when we were running on<br>
> ec2. You can this configuration for Stampede too. Modify<br>
> coaster-service.conf to set WORKER_NODE=slurm,<br>
> WORKER_RELAY_HOST=<a href="http://stampede.tacc.utexas.edu" target="_blank">stampede.tacc.utexas.edu</a>, and it will generate a slurm<br>
> script, scp it to stampede, and remotely start swift on a worker node. I'll<br>
> see if I can find an example config file for this.<br>
><br>
> With automatic coaters it's a bit more complicated and completely untested<br>
> as far as I know.<br>
><br>
> You may be able to use gram2. This worked on Ranger, but haven't tried yet<br>
> on Stampede.<br>
> Mike mentioned in the email below you may be able to change the ssh-cl<br>
> provider to add some kind of prefix command (srun).<br>
> Maybe you can modify your PATH so the 'ssh' command is actually a wrapper<br>
> you created and does something sneaky.<br>
> You may also be able to add a prefix command to<br>
> cog/modules/provider-coaster/resources/bootstrap.sh.<br>
><br>
> Hopefully this can help you get started - let me know if any of this works<br>
> for you, curious to see how we can get it working well.<br>
><br>
> David<br>
><br>
> ----- Forwarded Message -----<br>
><br>
><br>
> From: "Michael Wilde" <<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>><br>
> To: "David Kelly" <<a href="mailto:davidk@ci.uchicago.edu">davidk@ci.uchicago.edu</a>><br>
> Sent: Tuesday, April 16, 2013 10:59:22 AM<br>
> Subject: auto-coaster bootstrap for stamped<br>
><br>
><br>
> was: Re: Another item for the to-do list<br>
><br>
> David, thanks for the details.<br>
><br>
> Im wondering, for systems like stampede, could automatic coasters work to it<br>
> (eg from swift.rcc) by adding a sinteractive or srun command into the middle<br>
> of the ssh command generated by the ssh-cl parameter?<br>
><br>
> ie instead of doing ssh -sshargsgere auto-boostrap-coaster-stuff-here.sh<br>
> do: ssh -sshargsgere srun auto-boostrap-coaster-stuff-here.sh<br>
><br>
> ?<br>
><br>
>> This is the only mode that I've been able to test on Stampede so far.<br>
>> I will experiment more the others when Stampede is back up.<br>
><br>
> Others meaning GRAM? Perhaps using myproxy-logon? That *should* work out of<br>
> the box but we've not tested GRAM in ages so it probably doesnt.<br>
><br>
> Lets keep this lower on the prio list. I just want to be sure we have a<br>
> ticket for this. Please create one if not - thanks.<br>
><br>
> _______________________________________________<br>
> Swift-devel mailing list<br>
> <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
><br>
><br>
><br>
><br>
<br>
</div></div><span class="HOEnZb"><font color="#888888">--<br>
Sent from my mobile device<br>
</font></span><div class="HOEnZb"><div class="h5">_______________________________________________<br>
Swift-devel mailing list<br>
<a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
<a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><font face="'courier new', monospace">Ketan</font><br><br>
</div>