Using bash to do the wildcard matching was one of the ideas we came up with. <br><br>----- Reply message -----<br>From: "Justin M Wozniak" <wozniak@mcs.anl.gov><br>Date: Mon, Aug 22, 2011 12:46 pm<br>Subject: [Swift-devel] Performance problem with CDM direct processing<br>To: "Jonathan Monette" <jonmon@mcs.anl.gov><br>Cc: "Michael Wilde" <wilde@mcs.anl.gov>, "Jonathan Monette" <jon.monette@gmail.com>, "swift-devel Devel" <swift-devel@ci.uchicago.edu><br><br><br><br>This has to do with the way the _swiftwrap shell script looks up those <br>files.  To avoid the external use of perl, I will take a look at using <br>bash to do the wildcard matching and lookup.  Either that or I will batch <br>multiple lookups into one perl call.<br>  Justin<br><br>On Mon, 22 Aug 2011, Jonathan Monette wrote:<br><br>> Correct. I suspect if we can improve the performance of this section we <br>> can go from a run 12 hour run to a 6-8 hour run.<br>><br>> The number of files that are being procesed by cdm look up is 320K. <br>> What was observed was several processes were spawned for each file and <br>> took maybe a second to run(i think that was the time).<br>><br>> Mike and me had a discussion on how we can replicate it with a simple <br>> test case to show the delay as well as some simple fixes to try out.<br>><br>> ----- Reply message -----<br>> From: "Michael Wilde" <wilde@mcs.anl.gov><br>> Date: Mon, Aug 22, 2011 10:41 am<br>> Subject: [Swift-devel] Performance problem with CDM direct processing<br>> To: "Jonathan Monette" <jon.monette@gmail.com>, "Justin M Wozniak" <wozniak@mcs.anl.gov><br>> Cc: "swift-devel Devel" <swift-devel@ci.uchicago.edu><br>><br>><br>> Justin,<br>><br>> In testing Montage, Jon observed what looks like a performance bottleneck in the processing of CDM direct output passing.<br>><br>> I *think* what was happening was that a large number of jobs (say 25,000 or more, but I dont recall the exact number, it may have been larger) produced an output file, and all those files were being passed as input to a merge job.<br>><br>> What we observed was that the scripts being called from _swiftwrap (and perhaps some processing at the vdl-int.k level??? as well) were running very slowly, and that a fairly large number of scripts were being invoked per file. I think (but am not sure) that the high overhead was being observed at the start of the merge job in CDM scripts called by _swiftwrap.<br>><br>> Jon, can you explain what you know about this problem, and then lets see if we can enhance the performance?  This is now the main bottleneck in this application, which is otherwise now performing quite well.<br>><br>> Thanks,<br>><br>> - Mike<br>> _______________________________________________<br>> Swift-devel mailing list<br>> Swift-devel@ci.uchicago.edu<br>> <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br><br>-- <br>Justin M Wozniak<br><br><br>