<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
Mihael:<br>
<br>
The motivation for doing the tests is so that we can provide
appropriate advice to Mike, our super-high-priority Swift user who we
want to help as much and as quickly as possible. I'm concerned that we
don't seem to feel any sense of urgency in doing this. I'd like to
emphasize that the sole reason for anyone funding work on Swift is
because they believe us when we say that Swift can help people make
more effective use of high-performance computing systems (parallel and
grid). Mike K. is our most engaged and committed user, and if he is
successful, will bring us fame and fortune (and fun, I think, to
provide three Fs!). It shouldn't take a week for us to get back to him
with information on how to run his application efficiently on TG.<br>
<br>
Ian.<br>
<br>
Mihael Hategan wrote:
<blockquote cite="mid:1202094965.13259.8.camel@blabla.mcs.anl.gov"
 type="cite">
  <pre wrap="">On Sun, 2008-02-03 at 21:12 -0600, Ian Foster wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">Mihael:

Is there any chance you can try GRAM4, as was requested early last
week?
    </pre>
  </blockquote>
  <pre wrap=""><!---->
For the tests, sure. That's a big part of why I'm doing them.

If we're talking about the workflow that seems to be repeatedly killing
tg-grid1, then Mike Kubal would be the right person to ask.

  </pre>
  <blockquote type="cite">
    <pre wrap="">Ian.

Mihael Hategan wrote: 
    </pre>
    <blockquote type="cite">
      <pre wrap="">So I was trying some stuff on Friday night. I guess I've found the
strategy on when to run the tests: when nobody else has jobs there
(besides Buzz doing gridftp tests, Ioan having some Falkon workers
running, and the occasional Inca tests).

In any event, the machine jumps to about 100% utilization at around 130
jobs with pre-ws gram. So Mike, please set throttle.score.job.factor to
1 in swift.properties.

There's still more work I need to do test-wise.

On Sun, 2008-02-03 at 15:34 -0600, Ti Leggett wrote:
  
      </pre>
      <blockquote type="cite">
        <pre wrap="">Mike, You're killing tg-grid1 again. Can someone work with Mike to get  
some swift settings that don't kill our server?

On Jan 28, 2008, at 7:13 PM, Mike Kubal wrote:

    
        </pre>
        <blockquote type="cite">
          <pre wrap="">Yes, I'm submitting molecular dynamics simulations
using Swift.

Is there a default wall-time limit for jobs on tg-uc?



--- joseph insley <a class="moz-txt-link-rfc2396E" href="mailto:insley@mcs.anl.gov"><insley@mcs.anl.gov></a> wrote:

      
          </pre>
          <blockquote type="cite">
            <pre wrap="">Actually, these numbers are now escalating...

top - 17:18:54 up  2:29,  1 user,  load average:
149.02, 123.63, 91.94
Tasks: 469 total,   4 running, 465 sleeping,   0
stopped,   0 zombie

insley@tg-grid1:~> ps -ef | grep kubal | wc -l
    479

insley@tg-viz-login1:~> time globusrun -a -r
tg-grid.uc.teragrid.org
GRAM Authentication test successful
real    0m26.134s
user    0m0.090s
sys     0m0.010s


On Jan 28, 2008, at 5:15 PM, joseph insley wrote:

        
            </pre>
            <blockquote type="cite">
              <pre wrap="">Earlier today tg-grid.uc.teragrid.org (the UC/ANL
          
              </pre>
            </blockquote>
            <pre wrap="">TG GRAM host)
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">became unresponsive and had to be rebooted.  I am
          
              </pre>
            </blockquote>
            <pre wrap="">now seeing slow
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">response times from the Gatekeeper there again.
          
              </pre>
            </blockquote>
            <pre wrap="">Authenticating to
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">the gatekeeper should only take a second or two,
          
              </pre>
            </blockquote>
            <pre wrap="">but it is
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">periodically taking up to 16 seconds:

insley@tg-viz-login1:~> time globusrun -a -r
          
              </pre>
            </blockquote>
            <pre wrap="">tg-grid.uc.teragrid.org
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">GRAM Authentication test successful
real    0m16.096s
user    0m0.060s
sys     0m0.020s

looking at the load on tg-grid, it is rather high:

top - 16:55:26 up  2:06,  1 user,  load average:
          
              </pre>
            </blockquote>
            <pre wrap="">89.59, 78.69, 62.92
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">Tasks: 398 total,  20 running, 378 sleeping,   0
          
              </pre>
            </blockquote>
            <pre wrap="">stopped,   0 zombie
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">And there appear to be a large number of processes
          
              </pre>
            </blockquote>
            <pre wrap="">owned by kubal:
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">insley@tg-grid1:~> ps -ef | grep kubal | wc -l
   380

I assume that Mike is using swift to do the job
          
              </pre>
            </blockquote>
            <pre wrap="">submission.  Is
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">there some throttling of the rate at which jobs
          
              </pre>
            </blockquote>
            <pre wrap="">are submitted to
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">the gatekeeper that could be done that would
          
              </pre>
            </blockquote>
            <pre wrap="">lighten this load
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">some?  (Or has that already been done since
          
              </pre>
            </blockquote>
            <pre wrap="">earlier today?)  The
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">current response times are not unacceptable, but
          
              </pre>
            </blockquote>
            <pre wrap="">I'm hoping to
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">avoid having the machine grind to a halt as it did
          
              </pre>
            </blockquote>
            <pre wrap="">earlier today.
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">Thanks,
joe.



          
              </pre>
            </blockquote>
            <pre wrap="">===================================================
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">joseph a.
insley
          
<a class="moz-txt-link-abbreviated" href="mailto:insley@mcs.anl.gov">insley@mcs.anl.gov</a>
mathematics & computer science division
          
              </pre>
            </blockquote>
            <pre wrap="">(630) 252-5649
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">argonne national laboratory
          
              </pre>
            </blockquote>
            <pre wrap="">(630)
        
            </pre>
            <blockquote type="cite">
              <pre wrap="">252-5986 (fax)


          
              </pre>
            </blockquote>
            <pre wrap="">===================================================
joseph a. insley

<a class="moz-txt-link-abbreviated" href="mailto:insley@mcs.anl.gov">insley@mcs.anl.gov</a>
mathematics & computer science division       (630)
252-5649
argonne national laboratory
    (630)
252-5986 (fax)



        
            </pre>
          </blockquote>
          <pre wrap="">      
____________________________________________________________________________________
Be a better friend, newshound, and
know-it-all with Yahoo! Mobile.  Try it now.  <a class="moz-txt-link-freetext" href="http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ">http://mobile.yahoo.com/;_ylt=Ahu06i62sR8HDtDypao8Wcj9tAcJ</a>

      
          </pre>
        </blockquote>
        <pre wrap="">_______________________________________________
Swift-devel mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a>
<a class="moz-txt-link-freetext" href="http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel">http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel</a>

    
        </pre>
      </blockquote>
      <pre wrap="">_______________________________________________
Swift-devel mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a>
<a class="moz-txt-link-freetext" href="http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel">http://mail.ci.uchicago.edu/mailman/listinfo/swift-devel</a>

  
      </pre>
    </blockquote>
  </blockquote>
  <pre wrap=""><!---->
  </pre>
</blockquote>
</body>
</html>