Hi,<br><br>I am using MPI to communicate in cluster consisting of controller-workers. There is one controller and 5 workers. All these workers are spawned by controller.<br>Most of the time the communication works fine between controller and workers but sometime a worker hangs. I am running cluster on windows and my program is multi-threaded. <br>
<br>The flow is as follows:<br><br>Worker :<br><br>1. worker places a IRecv request to get the message from controller.<br>2. worker sends (&quot;blocking&quot; ) a message to controller to provide data which the worker takes in buffer posted in step-1.<br>
3. Worker tests the IRecv request. If the test fails then worker sleeps for sometime and then tests again.<br><br><br>Controller:<br><br>1. Controlller gets the message from worker  and sends (blocking) message to worker.<br>
<br>But controller does send the  message  to worker and this message does not lost. But sometime the placed Irecv request from worker never succeeds and worker hangs.<br><br>Any thought on this ? <br><br>Thanks,<br>Abhishek<br>
<br><br><br><br>