<div dir="ltr">Hello,<div><br></div><div>I've been thinking about the possibility of running the psims application in Swift/T. I just have a few general questions that I didn't see answered in the user guide.</div><div><br></div><div>Does Swift/T have the ability to retry failed tasks?</div><div><br></div><div>Does it have a resume option for failed workflows?</div><div><br></div><div>Is there an ability to limit the walltime of a task? We're working with a bunch of different models, some of which will behave badly from time to time and hang. When this happens, we'd like to end the task and retry it (preferably on a different node)</div><div><br></div><div>Is there any ability to detect node failures? (If a single node is repeatedly failing all tasks, to remove it from the pool so no more tasks get sent there?)</div><div><br></div><div>Input files will be available on a shared filesystem, but we'd like to avoid shared disk I/O scaling problems by using the local disks whenever possible. Does Swift/T have the concept of a scratch directory where intermediate files can go? (Maybe this has to be done in the wrapper script?)</div><div><br></div><div>We'd be running this on Midway. Since Swift/T uses MPI, does everything have to be launched within a single slurm job? The load on Midway varies greatly. Swift/K allows us submit many small slurm jobs to dynamically grow our worker pool as nodes become available.</div><div><br></div><div>Thanks,</div><div>David</div><div><div><br></div></div></div>