piskvorky · menshikh-iv · Jul 25, 2017 · Jul 24, 2017 · Jul 24, 2017 · Jul 24, 2017
diff --git a/gensim/models/wrappers/wordrank.py b/gensim/models/wrappers/wordrank.py
@@ -34,6 +34,7 @@
 from six import string_types
 from smart_open import smart_open
 from shutil import copyfile, rmtree
+from os.path import join
 
 
 logger = logging.getLogger(__name__)
@@ -87,29 +88,27 @@ def train(cls, wr_path, corpus_file, out_name, size=100, window=15, symmetric=1,
         `ensemble` = 0 (default), use ensemble of word and context vectors
         """
 
-        meta_data_path = 'matrix.meta'
         vocab_file = 'vocab.txt'
         temp_vocab_file = 'tempvocab.txt'
         cooccurrence_file = 'cooccurrence'
         cooccurrence_shuf_file = 'wiki.toy'
         meta_file = 'meta'
 
         # prepare training data (cooccurrence matrix and vocab)
-        model_dir = os.path.join(wr_path, out_name)
-        meta_dir = os.path.join(model_dir, 'meta')
+        model_dir = join(wr_path, out_name)
+        meta_dir = join(model_dir, 'meta')
         os.makedirs(meta_dir)
         logger.info("Dumped data will be stored in '%s'", model_dir)
-        copyfile(corpus_file, os.path.join(meta_dir, corpus_file.split('/')[-1]))
-        os.chdir(meta_dir)
+        copyfile(corpus_file, join(meta_dir, corpus_file.split('/')[-1]))
 
-        cmd_vocab_count = ['../../glove/vocab_count', '-min-count', str(min_count), '-max-vocab', str(max_vocab_size)]
-        cmd_cooccurence_count = ['../../glove/cooccur', '-memory', str(memory), '-vocab-file', temp_vocab_file, '-window-size', str(window), '-symmetric', str(symmetric)]
-        cmd_shuffle_cooccurences = ['../../glove/shuffle', '-memory', str(memory)]
-        cmd_del_vocab_freq = ['cut', '-d', " ", '-f', '1', temp_vocab_file]
+        cmd_vocab_count = [join(wr_path, 'glove', 'vocab_count'), '-min-count', str(min_count), '-max-vocab', str(max_vocab_size)]
+        cmd_cooccurence_count = [join(wr_path, 'glove', 'cooccur'), '-memory', str(memory), '-vocab-file', join(meta_dir, temp_vocab_file), '-window-size', str(window), '-symmetric', str(symmetric)]
+        cmd_shuffle_cooccurences = [join(wr_path, 'glove', 'shuffle'), '-memory', str(memory)]
+        cmd_del_vocab_freq = ['cut', '-d', " ", '-f', '1', join(meta_dir, temp_vocab_file)]
 
         commands = [cmd_vocab_count, cmd_cooccurence_count, cmd_shuffle_cooccurences]
-        input_fnames = [corpus_file.split('/')[-1], corpus_file.split('/')[-1], cooccurrence_file]
-        output_fnames = [temp_vocab_file, cooccurrence_file, cooccurrence_shuf_file]
+        input_fnames = [join(meta_dir, corpus_file.split('/')[-1]), join(meta_dir, corpus_file.split('/')[-1]), join(meta_dir, cooccurrence_file)]
+        output_fnames = [join(meta_dir, temp_vocab_file), join(meta_dir, cooccurrence_file), join(meta_dir, cooccurrence_shuf_file)]
 
         logger.info("Prepare training data (%s) using glove code", ", ".join(input_fnames))
         for command, input_fname, output_fname in zip(commands, input_fnames, output_fnames):
@@ -118,14 +117,14 @@ def train(cls, wr_path, corpus_file, out_name, size=100, window=15, symmetric=1,
                     utils.check_output(w, args=command, stdin=r)
 
         logger.info("Deleting frequencies from vocab file")
-        with smart_open(vocab_file, 'wb') as w:
+        with smart_open(join(meta_dir, vocab_file), 'wb') as w:
             utils.check_output(w, args=cmd_del_vocab_freq)
 
-        with smart_open(vocab_file, 'rb') as f:
+        with smart_open(join(meta_dir, vocab_file), 'rb') as f:
             numwords = sum(1 for line in f)
-        with smart_open(cooccurrence_shuf_file, 'rb') as f:
+        with smart_open(join(meta_dir, cooccurrence_shuf_file), 'rb') as f:
             numlines = sum(1 for line in f)
-        with smart_open(meta_file, 'wb') as f:
+        with smart_open(join(meta_dir, meta_file), 'wb') as f:
             meta_info = "{0} {1}\n{2} {3}\n{4} {5}".format(numwords, numwords, numlines, cooccurrence_shuf_file, numwords, vocab_file)
             f.write(meta_info.encode('utf-8'))
 
@@ -158,8 +157,8 @@ def train(cls, wr_path, corpus_file, out_name, size=100, window=15, symmetric=1,
 
         # run wordrank executable with wr_args
         cmd = ['mpirun', '-np']
-        cmd.append(np)
-        cmd.append(os.path.join(wr_path, 'wordrank'))
+        cmd.append(str(np))
+        cmd.append(join(wr_path, 'wordrank'))
         for option, value in wr_args.items():
             cmd.append('--%s' % option)
             cmd.append(str(value))
@@ -168,10 +167,9 @@ def train(cls, wr_path, corpus_file, out_name, size=100, window=15, symmetric=1,
 
         # use embeddings from max. iteration's dump
         max_iter_dump = iter - (iter % dump_period)
-        copyfile('model_word_%d.txt' % max_iter_dump, 'wordrank.words')
-        copyfile('model_context_%d.txt' % max_iter_dump, 'wordrank.contexts')
-        model = cls.load_wordrank_model('wordrank.words', os.path.join('meta', vocab_file), 'wordrank.contexts', sorted_vocab, ensemble)
-        os.chdir('../..')
+        os.rename('model_word_%d.txt' % max_iter_dump, join(model_dir, 'wordrank.words'))
+        os.rename('model_context_%d.txt' % max_iter_dump, join(model_dir, 'wordrank.contexts'))
+        model = cls.load_wordrank_model(join(model_dir, 'wordrank.words'), join(meta_dir, vocab_file), join(model_dir, 'wordrank.contexts'), sorted_vocab, ensemble)
 
         if cleanup_files:
             rmtree(model_dir)

diff --git a/gensim/test/test_corpora.py b/gensim/test/test_corpora.py
@@ -517,14 +517,14 @@ def test_non_trivial_structure(self):
 
         corpus = textcorpus.TextDirectoryCorpus(dirpath)
         filenames = list(corpus.iter_filepaths())
-        base_names = [name[len(dirpath) + 1:] for name in filenames]
-        expected = [
+        base_names = sorted([name[len(dirpath) + 1:] for name in filenames])
+        expected = sorted([
             '0.txt',
             'a_folder/1.txt',
             'b_folder/2.txt',
             'b_folder/3.txt',
             'b_folder/c_folder/4.txt'
-        ]
+        ])
         expected = [os.path.normpath(path) for path in expected]
         self.assertEqual(expected, base_names)