chainer · iwiwi · Aug 24, 2017 · Jun 13, 2017 · Aug 17, 2017 · Aug 18, 2017
diff --git a/chainermn/dataset.py b/chainermn/dataset.py
@@ -1,8 +1,9 @@
 import chainer.datasets
+import numpy
 import warnings
 
 
-def scatter_dataset(dataset, comm):
+def scatter_dataset(dataset, comm, root=0, shuffle=False, seed=None):
     """Scatter the given dataset to the workers in the communicator.
 
     The dataset of worker 0 (i.e., the worker whose ``comm.rank`` is 0) is
@@ -27,15 +28,21 @@ def scatter_dataset(dataset, comm):
 
     # We cannot use `mpi_comm.scatter`. This is due to MPI4py's bug.
     # For large datasets, when using `mpi_comm.scatter`, it causes MemoryError.
-    if comm.rank == 0:
+    if comm.rank == root:
         mine = None
         n_total_samples = len(dataset)
         n_sub_samples = (n_total_samples + comm.size - 1) // comm.size
+
+        if shuffle:
+            order = numpy.random.RandomState(seed).permutation(n_total_samples)
+        else:
+            order = numpy.arange(n_total_samples)
+
         for i in range(comm.size):
             b = n_total_samples * i // comm.size
             e = b + n_sub_samples
-            subds = chainer.datasets.SubDataset(dataset, b, e)
-            if i == 0:
+            subds = chainer.datasets.SubDataset(dataset, b, e, order)
+            if i == root:
                 mine = subds
             else:
                 comm.send(subds, dest=i)

diff --git a/tests/test_dataset.py b/tests/test_dataset.py
@@ -13,12 +13,13 @@ def setUp(self):
         self.mpi_comm = mpi4py.MPI.COMM_WORLD
         self.communicator = NaiveCommunicator(self.mpi_comm)
 
-    def check_scatter_dataset(self, original_dataset):
+    def check_scatter_dataset(self, original_dataset, shuffle=False, root=0):
         my_dataset = chainermn.scatter_dataset(
-            original_dataset, self.communicator)
+            original_dataset, self.communicator,
+            shuffle=shuffle, root=root)
         sub_datasets = self.mpi_comm.gather(my_dataset)
 
-        if self.mpi_comm.rank == 0:
+        if self.mpi_comm.rank == root:
             # Test the sizes
             sub_sizes = [len(sub_dataset) for sub_dataset in sub_datasets]
             self.assertEqual(len(set(sub_sizes)), 1)
@@ -36,12 +37,15 @@ def check_scatter_dataset(self, original_dataset):
     def test_scatter_dataset(self):
         n = self.communicator.size
 
-        self.check_scatter_dataset([])
-        self.check_scatter_dataset([0])
-        self.check_scatter_dataset(list(range(n)))
-        self.check_scatter_dataset(list(range(n * 5 - 1)))
-
-        self.check_scatter_dataset(np.array([]))
-        self.check_scatter_dataset(np.array([0]))
-        self.check_scatter_dataset(np.arange(n))
-        self.check_scatter_dataset(np.arange(n * 5 - 1))
+        for shuffle in [True, False]:
+            for root in range(self.communicator.size):
+                self.check_scatter_dataset([], root, shuffle)
+                self.check_scatter_dataset([0], root, shuffle)
+                self.check_scatter_dataset(list(range(n)), root, shuffle)
+                self.check_scatter_dataset(list(range(n * 5 - 1)),
+                                           root, shuffle)
+
+                self.check_scatter_dataset(np.array([]), root, shuffle)
+                self.check_scatter_dataset(np.array([0]), root, shuffle)
+                self.check_scatter_dataset(np.arange(n), root, shuffle)
+                self.check_scatter_dataset(np.arange(n * 5 - 1), root, shuffle)
diff --git a/tests/test_mnist.py b/tests/test_mnist.py
@@ -45,8 +45,8 @@ def test_mnist(self, display_log=True):
         else:
             train, test = None, None
 
-        train = chainermn.scatter_dataset(train, comm)
-        test = chainermn.scatter_dataset(test, comm)
+        train = chainermn.scatter_dataset(train, comm, shuffle=True)
+        test = chainermn.scatter_dataset(test, comm, shuffle=True)
 
         train_iter = chainer.iterators.SerialIterator(train, batchsize)
         test_iter = chainer.iterators.SerialIterator(test, batchsize,