文本分类方法集合
tensorflow==1.14.0
keras==2.3.1
TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中处理自然语言常用的工具。
TfidfVectorizer 相当于 CountVectorizer + TfidfTransformer
CountVectorizer 的作用是将文本文档转换为计数的稀疏矩阵。下面举一个具体的例子来说明(代码来自于官方文档)。
from sklearn.feature_extraction.text import CountVectorizer
# 定义一个 list,其中每个元素是一个文档(一个句子)
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]
vectorizer = CountVectorizer()
# 将文本数据转换为计数的稀疏矩阵
X = vectorizer.fit_transform(corpus)
# 查看每个单词的位置
print(vectorizer.get_feature_names())
# 输出: ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
# 由于 X 存储为稀疏矩阵,需要转换为 array 才能查看
print(X.toarray())
# 输出:
# [[0 1 1 1 0 0 1 0 1]
# [0 2 0 1 0 1 1 0 1]
# [1 0 0 1 1 0 1 1 1]
# [0 1 1 1 0 0 1 0 1]]
vectorizer.get_feature_names()
包含了数据中出现的所有单词去重后的集合,相当于一个词典。
当然你也可以给 CountVectorizer 提供一个单独的词典,否则 CountVectorizer 会自己从数据中学习到词典。
X.toarray()
是查看文档转化后的计数矩阵。
比如矩阵的第一行 [0 1 1 1 0 0 1 0 1]
对应于文档中的第一句 "This is the first document.",表示词典中对应位置的单词出现的次数。
X.toarray()
的维度是 (4,9),可以看到转化之后的计数矩阵的元素是 4,每个元素的长度固定为 9,这里的 9 就是字典的长度。
使用 TfidfTransformer 如下,输出的 tf-idf 矩阵维度也是 (4,9)
from sklearn.feature_extraction.text import TfidfTransformer
transform = TfidfTransformer()
Y = transform.fit_transform(X) # 这里的输入是上面文档的计数矩阵
print(Y.toarray()) # 输出转换为tf-idf后的 Y 矩阵
# 输出为:
# [[0. 0.46979139 0.58028582 0.38408524 0. 0. 0.38408524 0. 0.38408524]
# [0. 0.6876236 0. 0.28108867 0. 0.53864762 0.28108867 0. 0.28108867]
# [0.51184851 0. 0. 0.26710379 0.51184851 0. 0.26710379 0.51184851 0.26710379]
# [0. 0.46979139 0.58028582 0.38408524 0. 0. 0.38408524 0. 0.38408524]]
TfidfVectorizer 相当于 CountVectorizer 和 TfidfTransformer 的结合使用。
上面代码先调用了 CountVectorizer,然后调用了 TfidfTransformer。使用 TfidfVectorizer 可以简化代码如下:
# 把每个设备的 app 列表转换为字符串,以空格分隔
apps=deviceid_packages['apps'].apply(lambda x:' '.join(x)).tolist()
vectorizer=CountVectorizer()
transformer=TfidfTransformer()
# 原来的 app 列表 转换为计数的稀疏矩阵。
cntTf = vectorizer.fit_transform(apps)
# 得到 tf-idf 矩阵
tfidf=transformer.fit_transform(cntTf)
# 得到所有的 APP 列表,相当于词典
word=vectorizer.get_feature_names()
模型 | accuracy | 备注 |
---|---|---|
knn | 0.5514 | |
decision tree | 0.4317 | |
random forest | 0.4856 | |
logistic regression | 0.5133 | |
native bayes | 0.5383 | |
svm | 0.5583 | |
xgboost | 0.5190 | |
lightgbm | 0.5106 | |
fasttext | 0.5329 | |
textcnn | 0.5468 | |
bert | 0.6098 | |
bert+textcnn | 0.5937 | 将bert当word-embedding, textcnn输入为bert输出 |
bert+textcnn2 | 0.5972 | 将bert输出cls拼接textcnn输出, textcnn输入为bert输入中token经过独立embedding |
bilstm | 0.4821 | |
bilstm+attention | 0.5264 | |
nezha | 0.6110 | |
bert+rdrop | 0.6152 | |
bert+adversarial_training | 0.6110 | |
bert+gradient_penalty | 0.6137 | |
GAU | 0.6172 |
说明1:以上结果未经过详尽的调参,只是一个参考结果,调参后可能效果更佳~
说明2:bert+textcnn效果变差,可参考https://www.zhihu.com/question/477075127