<div dir="ltr"><div><div><div>This all sounds great.<br></div><div><br>Just to check that I've understood correctly, from the client's point of view:<br></div>* The per-client settings behave the same if -shared is not provided.<br></div>* Per-client settings are ignored if -shared is provided<br><br></div><div>I had one question:<br></div><div>* Do automatically allocated workers work with per-client settings?  I understand there were some issues related to sharing workers between clients.  Was the solution to have separate worker pools, or is this just not supported?<br><br></div><div>- Tim<br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Sep 8, 2014 at 2:38 PM, Mihael Hategan <span dir="ltr"><<a href="mailto:hategan@mcs.anl.gov" target="_blank">hategan@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">So...<br>
<br>
There were bugs. Lots of bugs.<br>
I did some work over the weekend to fix some of these and clean up the<br>
coaster code. Here's a summary:<br>
<br>
- there was some stuff in the low level coaster code to deal with<br>
persisting coaster channels over multiple connections with various<br>
options, like periodic connections, client or server initiated<br>
connections, buffering of commands, etc. None of this was used by Swift,<br>
and the code was pretty messy. I removed that.<br>
- there were some issues with multiple clients:<br>
  * improper shutdown of relevant workers when a client disconnected<br>
  * the worker task dispatcher was a singleton and had a reference to<br>
one block allocator, whereas multiple clients involved multiple<br>
allocators.<br>
- there were a bunch of locking issues in the C client that valgrind<br>
caught<br>
- the idea of remote job ids was a bit hard to work with. This remote id<br>
was the job id that the service assigned to a job. This is necessary<br>
because two different clients can submit jobs with the same id. The<br>
remote id would be communicated to the client as the reply to the submit<br>
request. However, it was entirely possible for a notification about job<br>
status to be sent to the client before the submit reply was. Since<br>
notifications were sent using the remote-id, the client would have no<br>
idea what job the notifications belonged to. Now, the server might need<br>
a unique job id, but there is no reason why it cannot use the client id<br>
when communicating the status to a client. So that's there now.<br>
- the way the C client was working, its jobs ended up not going to the<br>
workers, but the local queue. The service settings now allow specifying<br>
the provider/jobManager/url to be used to start blocks, and jobs are<br>
routed appropriately if they do not have the batch job flag set.<br>
<br>
I also added a shared service mode. We discussed this before. Basically<br>
you start the coaster service with "-shared <service.properties>" and<br>
all the settings are read from that file. In this case, all clients<br>
share the same worker pool, and client settings are ignored.<br>
<br>
The C client now has a multi-job testing tool which can submit many jobs<br>
with the desired level of concurrency.<br>
<br>
I have tested the C client with both shared and non-shared mode, with<br>
various levels of jobs being sent, with either one or two concurrent<br>
clients.<br>
<br>
I haven't tested manual workers.<br>
<br>
I've also decided that during normal operation (i.e. client connects,<br>
submits jobs, shuts down gracefully), there should be no exceptions in<br>
the coaster log. I think we should stick to that principle. This was the<br>
case last I tested, and we should consider any deviation from that to be<br>
a problem. Of course, there are some things for which there is no<br>
graceful shut down, such as ctrl+C-ing a manual worker. Exceptions are<br>
fine in that case.<br>
<br>
So anyway, let's start from here.<br>
<span class="HOEnZb"><font color="#888888"><br>
Mihael<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
On Fri, 2014-09-05 at 13:09 -0500, Tim Armstrong wrote:<br>
> Thanks, let me know if there's anything I can help do.<br>
><br>
> - Tim<br>
><br>
><br>
> On Fri, Sep 5, 2014 at 12:57 PM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>> wrote:<br>
><br>
> > Thanks. It also seems that there is an older bug in there in which the<br>
> > client connection is not properly accounted for and things start failing<br>
> > two minutes after the client connects (which is also probably why you<br>
> > didn't see this in runs with many short client connections). I'm not<br>
> > sure why the fix for that bug isn't in the trunk code.<br>
> ><br>
> > In any event, I'll set up a client submission loop and fix all these<br>
> > things.<br>
> ><br>
> > Mihael<br>
> ><br>
> > On Fri, 2014-09-05 at 12:<a href="tel:13%20-0500" value="+61130500">13 -0500</a>, Tim Armstrong wrote:<br>
> > > Ok, here it is with the additional debug messages.  Source code change is<br>
> > > in commit 890c41f2ba701b10264553471590096d6f94c278.<br>
> > ><br>
> > > Warning: the tarball will expand to several gigabytes of logs.<br>
> > ><br>
> > > I had to do multiple client runs to trigger it.  It seems like the<br>
> > problem<br>
> > > might be triggered by abnormal termination of the client.  First 18 runs<br>
> > > went fine, problem only started when I ctrl-c-ed the swift/t run #19<br>
> > before<br>
> > > the run #20 that exhibited delays.<br>
> > ><br>
> > > <a href="http://people.cs.uchicago.edu/~tga/files/worker-logs3.tar.gz" target="_blank">http://people.cs.uchicago.edu/~tga/files/worker-logs3.tar.gz</a><br>
> > ><br>
> > > - Tim<br>
> > ><br>
> > ><br>
> > > On Fri, Sep 5, 2014 at 8:55 AM, Tim Armstrong <<a href="mailto:tim.g.armstrong@gmail.com">tim.g.armstrong@gmail.com</a><br>
> > ><br>
> > > wrote:<br>
> > ><br>
> > > > It's here:<br>
> > > > <a href="http://people.cs.uchicago.edu/~tga/files/coaster-service.out.full.gz" target="_blank">http://people.cs.uchicago.edu/~tga/files/coaster-service.out.full.gz</a> .<br>
> > > ><br>
> > > > I'll add some extra debug messages in the coaster C++ client and see<br>
> > if I<br>
> > > > can recreate the scenario.<br>
> > > ><br>
> > > > - Tim<br>
> > > ><br>
> > > ><br>
> > > > On Thu, Sep 4, 2014 at 7:27 PM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>><br>
> > > > wrote:<br>
> > > ><br>
> > > >> Ok, so that's legit.<br>
> > > >><br>
> > > >> It does look like shut down workers are not properly accounted for in<br>
> > > >> some places (and I believe Yadu submitted a bug for this). However, I<br>
> > do<br>
> > > >> not see the dead time you mention in either of the last two sets of<br>
> > > >> logs. It looks like each client instance submits a continous stream of<br>
> > > >> jobs.<br>
> > > >><br>
> > > >> So let's get back to the initial log. Can I have the full service log?<br>
> > > >> I'm trying to track what happened with the jobs submitted before the<br>
> > > >> first big pause.<br>
> > > >><br>
> > > >> Also, a log message in CoasterClient::updateJobStatus() (or friends)<br>
> > > >> would probably help a lot here.<br>
> > > >><br>
> > > >> Mihael<br>
> > > >><br>
> > > >> On Thu, 2014-09-04 at 15:34 -0500, Tim Armstrong wrote:<br>
> > > >> > Should be here:<br>
> > > >> ><br>
> > > >> > <a href="http://people.cs.uchicago.edu/~tga/worker-logs2.tar.gz" target="_blank">http://people.cs.uchicago.edu/~tga/worker-logs2.tar.gz</a><br>
> > > >> ><br>
> > > >> ><br>
> > > >> ><br>
> > > >> ><br>
> > > >> > On Thu, Sep 4, 2014 at 3:03 PM, Mihael Hategan <<a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a><br>
> > ><br>
> > > >> wrote:<br>
> > > >> ><br>
> > > >> > > The first worker "failing" is 0904-20022331. The log looks funny<br>
> > at<br>
> > > >> the<br>
> > > >> > > end.<br>
> > > >> > ><br>
> > > >> > > Can you git pull and re-run? The worker is getting some command<br>
> > at the<br>
> > > >> > > end there and doing nothing about it and I wonder why.<br>
> > > >> > ><br>
> > > >> > > Mihael<br>
> > > >> > ><br>
> > > >> > > On Thu, 2014-09-04 at 14:35 -0500, Tim Armstrong wrote:<br>
> > > >> > > > Ok, now I have some worker logs:<br>
> > > >> > > ><br>
> > > >> > > > <a href="http://people.cs.uchicago.edu/~tga/2014-9-4-worker-logs.tar.gz" target="_blank">http://people.cs.uchicago.edu/~tga/2014-9-4-worker-logs.tar.gz</a><br>
> > > >> > > ><br>
> > > >> > > > There's nothing obvious I see in the worker logs that would<br>
> > > >> indicate why<br>
> > > >> > > > the connection was broken.<br>
> > > >> > > ><br>
> > > >> > > > - Tim<br>
> > > >> > > ><br>
> > > >> > > ><br>
> > > >> > > > On Thu, Sep 4, 2014 at 1:11 PM, Tim Armstrong <<br>
> > > >> <a href="mailto:tim.g.armstrong@gmail.com">tim.g.armstrong@gmail.com</a><br>
> > > >> > > ><br>
> > > >> > > > wrote:<br>
> > > >> > > ><br>
> > > >> > > > > This is all running locally on my laptop, so I think we can<br>
> > rule<br>
> > > >> out<br>
> > > >> > > 1).<br>
> > > >> > > > ><br>
> > > >> > > > > It also seems like it's a state the coaster service gets into<br>
> > > >> after a<br>
> > > >> > > few<br>
> > > >> > > > > client sessions: generally the first coaster run works fine,<br>
> > then<br>
> > > >> > > after a<br>
> > > >> > > > > few runs the problem occurs more frequently.<br>
> > > >> > > > ><br>
> > > >> > > > > I'm going to try and get worker logs, in the meantime i've got<br>
> > > >> some<br>
> > > >> > > > > jstacks (attached).<br>
> > > >> > > > ><br>
> > > >> > > > > Matching service logs (largish) are here if needed:<br>
> > > >> > > > > <a href="http://people.cs.uchicago.edu/~tga/service.out.gz" target="_blank">http://people.cs.uchicago.edu/~tga/service.out.gz</a><br>
> > > >> > > > ><br>
> > > >> > > > ><br>
> > > >> > > > > On Wed, Sep 3, 2014 at 10:35 PM, Mihael Hategan <<br>
> > > >> <a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a>><br>
> > > >> > > > > wrote:<br>
> > > >> > > > ><br>
> > > >> > > > >> Ah, makes sense.<br>
> > > >> > > > >><br>
> > > >> > > > >> 2 minutes is the channel timeout. Each live connection is<br>
> > > >> guaranteed<br>
> > > >> > > to<br>
> > > >> > > > >> have some communication for any 2 minute time window,<br>
> > partially<br>
> > > >> due to<br>
> > > >> > > > >> periodic heartbeats (sent every 1 minute). If no packets flow<br>
> > > >> for the<br>
> > > >> > > > >> duration of 2 minutes, the connection is assumed broken and<br>
> > all<br>
> > > >> jobs<br>
> > > >> > > > >> that were submitted to the respective workers are considered<br>
> > > >> failed.<br>
> > > >> > > So<br>
> > > >> > > > >> there seems to be an issue with the connections to some of<br>
> > the<br>
> > > >> > > workers,<br>
> > > >> > > > >> and it takes 2 minutes to detect them.<br>
> > > >> > > > >><br>
> > > >> > > > >> Since the service seems to be alive (although a jstack on the<br>
> > > >> service<br>
> > > >> > > > >> when thing seem to hang might help), this leaves two<br>
> > > >> possibilities:<br>
> > > >> > > > >> 1 - some genuine network problem<br>
> > > >> > > > >> 2 - the worker died without properly closing TCP connections<br>
> > > >> > > > >><br>
> > > >> > > > >> If (2), you could enable worker logging<br>
> > > >> > > > >> (Settings::Key::WORKER_LOGGING_LEVEL = "DEBUG") to see if<br>
> > > >> anything<br>
> > > >> > > shows<br>
> > > >> > > > >> up.<br>
> > > >> > > > >><br>
> > > >> > > > >> Mihael<br>
> > > >> > > > >><br>
> > > >> > > > >> On Wed, 2014-09-03 at 20:26 -0500, Tim Armstrong wrote:<br>
> > > >> > > > >> > Here are client and service logs, with part of service log<br>
> > > >> edited<br>
> > > >> > > down<br>
> > > >> > > > >> to<br>
> > > >> > > > >> > be a reasonable size (I have the full thing if needed, but<br>
> > it<br>
> > > >> was<br>
> > > >> > > over a<br>
> > > >> > > > >> > gigabyte).<br>
> > > >> > > > >> ><br>
> > > >> > > > >> > One relevant section is from 19:49:35 onwards.  The client<br>
> > > >> submits 4<br>
> > > >> > > > >> jobs<br>
> > > >> > > > >> > (its limit), but they don't complete until 19:51:32 or so<br>
> > (I<br>
> > > >> can see<br>
> > > >> > > > >> that<br>
> > > >> > > > >> > one task completed based on ncompleted=1 in the<br>
> > check_tasks log<br>
> > > >> > > > >> message).<br>
> > > >> > > > >> > It looks like something has happened with broken pipes and<br>
> > > >> workers<br>
> > > >> > > being<br>
> > > >> > > > >> > lost, but I'm not sure what the ultimate cause of that is<br>
> > > >> likely to<br>
> > > >> > > be.<br>
> > > >> > > > >> ><br>
> > > >> > > > >> > - Tim<br>
> > > >> > > > >> ><br>
> > > >> > > > >> ><br>
> > > >> > > > >> ><br>
> > > >> > > > >> > On Wed, Sep 3, 2014 at 6:20 PM, Mihael Hategan <<br>
> > > >> <a href="mailto:hategan@mcs.anl.gov">hategan@mcs.anl.gov</a><br>
> > > >> > > ><br>
> > > >> > > > >> wrote:<br>
> > > >> > > > >> ><br>
> > > >> > > > >> > > Hi Tim,<br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > > I've never seen this before with pure Java.<br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > > Do you have logs from these runs?<br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > > Mihael<br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > > On Wed, 2014-09-03 at 16:49 -0500, Tim Armstrong wrote:<br>
> > > >> > > > >> > > > I'm running a test Swift/T script that submit tasks to<br>
> > > >> Coasters<br>
> > > >> > > > >> through<br>
> > > >> > > > >> > > the<br>
> > > >> > > > >> > > > C++ client and I'm seeing some odd behaviour where task<br>
> > > >> > > > >> > > > submission/execution is stalling for ~2 minute periods.<br>
> > > >> For<br>
> > > >> > > > >> example, I'm<br>
> > > >> > > > >> > > > seeing submit log messages like "submitting<br>
> > > >> > > > >> > > > urn:133-1409778135377-1409778135378: /bin/hostname" in<br>
> > > >> bursts of<br>
> > > >> > > > >> several<br>
> > > >> > > > >> > > > seconds with a gap of roughly 2 minutes in between,<br>
> > e.g.<br>
> > > >> I'm<br>
> > > >> > > seeing<br>
> > > >> > > > >> > > bursts<br>
> > > >> > > > >> > > > with the following intervals in my logs.<br>
> > > >> > > > >> > > ><br>
> > > >> > > > >> > > > 16:07:04,603 to 16:07:10,391<br>
> > > >> > > > >> > > > 16:09:07,377 to 16:09:13,076<br>
> > > >> > > > >> > > > 16:11:10,005 to 16:11:16,770<br>
> > > >> > > > >> > > > 16:13:13,291 to 16:13:19,296<br>
> > > >> > > > >> > > > 16:15:16,000 to 16:15:21,602<br>
> > > >> > > > >> > > ><br>
> > > >> > > > >> > > > From what I can tell, the delay is on the coaster<br>
> > service<br>
> > > >> side:<br>
> > > >> > > the<br>
> > > >> > > > >> C<br>
> > > >> > > > >> > > > client is just waiting for a response.<br>
> > > >> > > > >> > > ><br>
> > > >> > > > >> > > > The jobs are just being submitted through the local job<br>
> > > >> > > manager, so<br>
> > > >> > > > >> I<br>
> > > >> > > > >> > > > wouldn't expect any delays there.  The tasks are also<br>
> > just<br>
> > > >> > > > >> > > "/bin/hostname",<br>
> > > >> > > > >> > > > so should return immediately.<br>
> > > >> > > > >> > > ><br>
> > > >> > > > >> > > > I'm going to continue digging into this on my own, but<br>
> > the<br>
> > > >> 2<br>
> > > >> > > minute<br>
> > > >> > > > >> delay<br>
> > > >> > > > >> > > > seems like a big clue: does anyone have an idea what<br>
> > could<br>
> > > >> cause<br>
> > > >> > > > >> stalls<br>
> > > >> > > > >> > > in<br>
> > > >> > > > >> > > > task submission of 2 minute duration?<br>
> > > >> > > > >> > > ><br>
> > > >> > > > >> > > > Cheers,<br>
> > > >> > > > >> > > > Tim<br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > ><br>
> > > >> > > > >> > ><br>
> > > >> > > > >><br>
> > > >> > > > >><br>
> > > >> > > > >><br>
> > > >> > > > ><br>
> > > >> > ><br>
> > > >> > ><br>
> > > >> > ><br>
> > > >><br>
> > > >><br>
> > > >><br>
> > > ><br>
> ><br>
> ><br>
> ><br>
<br>
<br>
</div></div></blockquote></div><br></div>