<html>Have not experimented with MPICH2 in threads. But, have noticed that if n-1 MPI processes are run on a single node with n cores, that runs faster than running those processes on multiple nodes, one per node. Apparently, from this observation, MPICH2 behaves differently when the network is not needed to reach a process.</html>