<div dir="ltr"><div style>Hi Mike,</div><div style><br></div>It works with provider staging. So, it does look like an NFS sync issue.<div><br></div><div style>Thanks,</div><div style>Ketan</div></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Mon, Apr 1, 2013 at 10:20 PM, Michael Wilde <span dir="ltr"><<a href="mailto:wilde@mcs.anl.gov" target="_blank">wilde@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Ketan,<br>
<br>
Can you post a pointer to your code, the Swift log, and the Swift stdout/err?<br>
<br>
How are you mapping the file "...outdir/out_l0000_0000.0010.out"?<br>
<br>
Does 35 correspond to any of the array bounds?<br>
<br>
Does it fail if you use only one host? (I.e. my first thought was some kind of NSF sync error).<br>
<br>
Could you try it using local disk and provider staging with the N hosts?<br>
<div class="im HOEnZb"><br>
- Mike<br>
<br>
<br>
----- Original Message -----<br>
> From: "Ketan Maheshwari" <<a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a>><br>
</div><div class="HOEnZb"><div class="h5">> To: "Michael Wilde" <<a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a>><br>
> Cc: "Swift Devel" <<a href="mailto:swift-devel@ci.uchicago.edu">swift-devel@ci.uchicago.edu</a>><br>
> Sent: Monday, April 1, 2013 9:02:24 PM<br>
> Subject: Re: [Swift-devel] cache already contains error<br>
><br>
><br>
> Thanks Mike, that fixed the cache issue. However, now I am seeing an<br>
> unusual behavior from my Swift run:<br>
><br>
><br>
> The ampl run crashes after completing a fixed number of jobs (35 to<br>
> be precise).<br>
><br>
><br>
> Some diagnostics:<br>
><br>
><br>
> -- It runs to completion when I do a Swift resume. Once again only<br>
> the next 35 jobs complete successfully. On a next resume the rest of<br>
> them complete.<br>
><br>
><br>
> -- Runs outside of Swift with a bash for-loop using the same<br>
> parameters as in Swift script.<br>
><br>
><br>
> -- A catsn script of similar parameters runs to completion without<br>
> any failures. So, nothing seem to be wrong with the OS parameters.<br>
><br>
><br>
> I am using a single MCS workstation, no provider staging, no<br>
> coasters.<br>
><br>
><br>
> The error message is:<br>
><br>
><br>
> Caused by: File not found:<br>
> /nfs2/ketan/powergridapps/swiftscripts/swift.work/inference-20130401-2043-78i7o5m3/shared/outdir/out_l0000_0000.0010.out<br>
><br>
><br>
> Which is reflected in the logs as well as in the workdir's info<br>
> files.<br>
><br>
><br>
> Has anyone seen this kind of behavior? Any remedial suggestions?<br>
><br>
><br>
> Thanks,<br>
> Ketan<br>
><br>
><br>
><br>
> On Mon, Apr 1, 2013 at 5:59 PM, Michael Wilde < <a href="mailto:wilde@mcs.anl.gov">wilde@mcs.anl.gov</a> ><br>
> wrote:<br>
><br>
><br>
> I think you need to make out 2-dimensional.<br>
><br>
> Your script is going to evaluate "out[j] = cat(data)" for both i=0<br>
> and i=1.<br>
><br>
> The second of those evaluations is probably encountering the "cache<br>
> already contains" for j=0.<br>
><br>
> If it didnt hit that (ie if you used the concurrent mapper) you'd<br>
> likely then get an error that out[0] is already set.<br>
><br>
> - Mike<br>
><br>
><br>
><br>
><br>
> ----- Original Message -----<br>
> > From: "Ketan Maheshwari" < <a href="mailto:ketancmaheshwari@gmail.com">ketancmaheshwari@gmail.com</a> ><br>
> > To: "Swift Devel" < <a href="mailto:swift-devel@ci.uchicago.edu">swift-devel@ci.uchicago.edu</a> ><br>
> > Sent: Monday, April 1, 2013 5:49:36 PM<br>
> > Subject: [Swift-devel] cache already contains error<br>
> ><br>
> ><br>
> ><br>
> ><br>
> > Hi,<br>
> ><br>
> > I am running into the "cache already contains" error when using a<br>
> > nested loop with file mappers. Here is a simple reproduction of the<br>
> > issue with a nested loop variant of catsn.swift:<br>
> ><br>
> ><br>
> ><br>
> > type file;<br>
> > app (file o) cat (file i){<br>
> > cat @i stdout=@o;<br>
> > }<br>
> ><br>
> ><br>
> > #file out[];<br>
> > #file out[]<concurrent_mapper; location="outdir",<br>
> > prefix="f.",suffix=".out">;<br>
> > file out[]<simple_mapper; location="outdir",<br>
> > prefix="f.",suffix=".out">;<br>
> ><br>
> ><br>
> > foreach i in [0:1] {<br>
> > foreach j in [0:1]{<br>
> > file data<"data.txt">;<br>
> > out[j] = cat(data);<br>
> > }<br>
> > }<br>
> ><br>
> ><br>
> > It runs into the cache error after completing few tasks<br>
> > successfully:<br>
> ><br>
> > $ swift catsn.swift<br>
> > Swift trunk swift-r6410 cog-r3648<br>
> ><br>
> ><br>
> > RunID: 20130401-1745-7khkyrqc<br>
> > Progress: time: Mon, 01 Apr 2013 17:45:59 -0500<br>
> > Progress: time: Mon, 01 Apr 2013 17:46:00 -0500 Selecting site:1<br>
> > Active:1 Finished successfully:2<br>
> > Execution failed:<br>
> > Exception in cat:<br>
> > Arguments: [data.txt]<br>
> > Host: localhost<br>
> > Directory: catsn-20130401-1745-7khkyrqc/jobs/y/cat-yzf9fg7l<br>
> > Caused by:<br>
> > The cache already contains<br>
> > localhost:catsn-20130401-1745-7khkyrqc/shared/outdir/f.0000.out.<br>
> > cat, catsn.swift, line 14<br>
> ><br>
> ><br>
> > The cause, I think is that the nested loop triggers the same series<br>
> > of random sequences in mappers code which collides. Both, the<br>
> > simple<br>
> > and the concurrent mappers fail with same message.<br>
> ><br>
> ><br>
> > Does anyone know of a workaround?<br>
> ><br>
> ><br>
> > Thanks,<br>
> > --<br>
> > Ketan<br>
> ><br>
> ><br>
> > _______________________________________________<br>
> > Swift-devel mailing list<br>
> > <a href="mailto:Swift-devel@ci.uchicago.edu">Swift-devel@ci.uchicago.edu</a><br>
> > <a href="https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel" target="_blank">https://lists.ci.uchicago.edu/cgi-bin/mailman/listinfo/swift-devel</a><br>
> ><br>
><br>
><br>
><br>
><br>
> --<br>
> Ketan<br>
><br>
><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><font face="'courier new', monospace">Ketan</font><br><br>
</div>