rapidsai · rapids-bot · May 26, 2023 · May 19, 2023 · May 23, 2023 · May 23, 2023
@@ -29,6 +29,7 @@
 #include <cuml/common/utils.hpp>
 
 #include <linalg/batched/matrix.cuh>
+#include <raft/core/cusolver_macros.hpp>
 #include <raft/matrix/matrix.cuh>
 #include <raft/util/cudart_utils.hpp>
 #include <rmm/device_uvector.hpp>

@@ -153,7 +153,7 @@ def get_char_ngrams(self, ngram_size, str_series, doc_id_sr):
         meaning we need to first tokenize and pad each token with a delimiter.
         """
         if self.analyzer == "char_wb" and ngram_size != 1:
-            token_count = str_series.str.token_count(self.delimiter)
+            token_count = str_series.str.token_count(delimiter=self.delimiter)
             tokens = str_series.str.tokenize(self.delimiter)
             del str_series
 
@@ -598,7 +598,7 @@ def fit_transform(self, raw_documents, y=None):
         if self._fixed_vocabulary:
             self.vocabulary_ = self.vocabulary
         else:
-            self.vocabulary_ = tokenized_df["token"].unique()
+            self.vocabulary_ = tokenized_df["token"].unique().sort_values()
 
         count_df = self._count_vocab(tokenized_df)
 
@@ -804,7 +804,6 @@ class HashingVectorizer(_VectorizerMixin):
         ... ]
         >>> vectorizer = HashingVectorizer(n_features=2**4)
         >>> X = vectorizer.fit_transform(pd.Series(corpus))
-        >>> print(X.shape)
         (4, 16)
 
     See Also