New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

add text classification models #24

Merged

luotao1 merged 33 commits into PaddlePaddle:develop from JiayiFeng:develop

May 17, 2017

Collaborator

JiayiFeng commented May 3, 2017

fix #14

JiayiFeng and others added 4 commits

May 2, 2017 16:35


          add 'text_classification_cnn.py' and 'text_classification_dnn.py'

100796f


          Merge pull request #1 from Canpio/dev

dfc100a

add 'text_classification_cnn.py' and 'text_classification_dnn.py'


          remove 'import sqlite3'

a651dc4


          Merge branch 'develop' of https://github.com/PaddlePaddle/models into…

31ef20f

… develop

lcy-seso reviewed

View reviewed changes

Collaborator

lcy-seso left a comment

Almost finished, and you can begin to write the doc.

text_classification/text_classification_cnn.py Outdated

+                      if isinstance(event, paddle.event.EndPass):
+                          result = trainer.test(reader=test_reader, feeding=feeding)
+                          print "\nTest with Pass %d, %s" % (event.pass_id, result.metrics)
+                          with gzip.open("cnn_params.tar.gz", 'w') as f:

Collaborator

lcy-seso May 4, 2017 •

edited

Loading

It is better that models are saved according to the pass number, otherwise, new models will overwrite the old model, as a result, it is impossible to do the model selection.

text_classification/text_classification_cnn.py Outdated

+                  infer_data_num = 100
+                  for item in paddle.dataset.imdb.test(word_dict):
+                      infer_data.append([item[0]])
+                      infer_label_data.append(item[1])

Collaborator

lcy-seso May 4, 2017

The meaning is more unambiguous if rename infer_label_data to infer_data_label.

text_classification/text_classification_cnn.py Outdated

+                  infer_data = []
+                  infer_label_data = []
+                  infer_data_num = 100

Collaborator

lcy-seso May 4, 2017

The constraint on the number of test data can be removed.

text_classification/text_classification_dnn.py Outdated

+                  emb = paddle.layer.embedding(input=data, size=emb_dim)
+                  seq_pool = paddle.layer.pooling(
+                      input=emb, pooling_type=paddle.pooling.Max())

Collaborator

lcy-seso May 4, 2017

Is max pooling better than average pooling or sum?
p.s. the old configuration file may not always be a good network configuration.

text_classification/text_classification_dnn.py Outdated

+                      input=hd1,
+                      size=32,
+                      act=paddle.activation.Tanh(),
+                      param_attr=paddle.attr.Param(initial_std=0.01))

Collaborator

lcy-seso May 4, 2017

Does initializing the parameter matrix according to layer size work better?

text_classification/text_classification_dnn.py Outdated

+                      if isinstance(event, paddle.event.EndPass):
+                          result = trainer.test(reader=test_reader, feeding=feeding)
+                          print "\nTest with Pass %d, %s" % (event.pass_id, result.metrics)
+                          with gzip.open("dnn_params.tar.gz", 'w') as f:

Collaborator

lcy-seso May 4, 2017

It is better to save the model according to the pass number.

text_classification/text_classification_dnn.py Outdated

+                  [_, output] = fc_net(dict_dim, class_dim=class_dim)
+                  parameters = paddle.parameters.Parameters.from_tar(
+                      gzip.open("dnn_params.tar.gz"))

Collaborator

lcy-seso May 4, 2017

It is better to save the model according to the pass number.

text_classification/text_classification_dnn.py Outdated

+                  infer_data_num = 100
+                  for item in paddle.dataset.imdb.test(word_dict):
+                      infer_data.append([item[0]])
+                      infer_label_data.append(item[1])

Collaborator

lcy-seso May 4, 2017

The meaning is more unambiguous if rename infer_label_data to infer_data_label.

Collaborator

lcy-seso commented May 4, 2017

The configuration is almost finished, and I think you can begin to working on the doc.

Besides, please also be careful to verify the learning performance. We should not provide an example that works poorly to the users.

Thanks for the work.

lcy-seso self-requested a review

May 4, 2017 08:33

lcy-seso self-assigned this

JiayiFeng added 14 commits

May 4, 2017 17:26


          update readme file

046d0a1


          update readme file

868d4cb


          update README.md and add dnn_net.png

dd827a2


          update README.md

20c2ec9


          change dnn_net.png

77abc3c


          update dnn_net.png


          add .gitignore

da0eb4e


          update README.md

5a4ad99


          update README.md

0a39b52


          update README.md

1b01f6a


          update README.md

78531d8


          add cnn_net.png and update README.md

55dc1a3


          add commits in cnn net

ac67d5a


          add comments in cnn net

947e70d

lcy-seso requested changes

View reviewed changes

Collaborator

lcy-seso left a comment

Help with testing a configuration with more than one evaluators.

text_classification/text_classification_cnn.py

+                  output = paddle.layer.fc(
+                      input=[conv_3, conv_4], size=class_dim, act=paddle.activation.Softmax())
+                  cost = paddle.layer.classification_cost(input=output, label=lbl)

Collaborator

lcy-seso May 9, 2017

Could you help with adding more than one evaluators to this configuration, for example, besides an evaluator to calculate the error rate, if it possible to add a precision-recall evaluator? I hope to test a configuration with more than one evaluators. Thanks for your work.

Collaborator Author

JiayiFeng May 11, 2017

done, added auc evaluator

luotao1 requested changes

View reviewed changes

Contributor

luotao1 left a comment

文档需要再优化下。对dnn模型和cnn模型的区别（包括实际应用中该如何选择，它们效果上有什么差别，模型物理意义上有什么差别等），在文章的开头简单的说几句，给小白用户一个直观的感受。

如果两个模型没什么本质区别和效果区别，也需要给用户一个说明。

text_classification/.gitignore Outdated

		@@ -0,0 +1,2 @@
		*.pptx
		*.pdf

Contributor

luotao1 May 9, 2017

为什么需要忽略掉pptx和pdf？

Collaborator Author

JiayiFeng May 9, 2017

pptx和pdf是我自己目录下作图中产生的一些临时文件，所以忽略

Collaborator Author

JiayiFeng May 9, 2017

准备将临时文件都放入专门的temp目录

Contributor

luotao1 May 9, 2017

自己的临时文件请不要上传到版本库里。.gitignore可以删去。

text_classification/README.md Outdated


		## DNN模型

		#### DNN的模型结构入下图所示：

Contributor

luotao1 May 9, 2017

第7行是##
第9行应该是###，下同。而且“DNN的模型结构如下图所示”也不适合作为标题，下同。

text_classification/README.md Outdated


		需要注意的是，该模型的输入数据为整数序列，而不是原始的英文单词序列。事实上，为了处理方便我们一般会事先将单词根据词频顺序进行id化，即将单词用整数替代。这一步一般在DNN模型之外完成。

		##CNN模型

Contributor

luotao1 May 9, 2017

71行和73行##后面要加空格，不然标题无法渲染出来。

text_classification/README.md Outdated


		#### 可以看到，模型主要分为如下几个部分：

		- embedding层：IMDB的样本由原始的英文单词组成，为了方便模型的训练，必须通过embedding将英文单词转化为固定维度的向量。

Contributor

luotao1 May 9, 2017

术语要统一，后面两层用的是中文，前面的embedding和max pooling也用中文。分别是词向量层和最大池化层。全文同。

text_classification/README.md Outdated

+              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的IMDB语料库训练二分类DNN和CNN模型，完成对语料的简单文本分类。
+              ## 实验数据
+              本例子的实验在IMDB数据集上进行。IMDB数据集包含了来自IMDb（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。数据集被划分为train和test两部分，各2.5万条数据，正负样本的比例基本为1:1。样本直接以英文原文的形式表示。

Contributor

luotao1 May 9, 2017

IMDB数据集包含了来自IMDb（这个b是小写么？）
数据集可以放链接。

Collaborator Author

JiayiFeng May 9, 2017

b是小写，全称Internet Movie Database

text_classification/README.md Outdated


		- embedding层：IMDB的样本由原始的英文单词组成，为了方便模型的训练，必须通过embedding将英文单词转化为固定维度的向量。

		- max pooling：max pooling在时间序列上进行，pooling过程消除了不同语料样本在单词数量多少上的差异，并提炼出词向量中每一下标位置上的最大值。经过pooling后，样本被转化为一条固定维度的向量。

Contributor

luotao1 May 9, 2017

并提炼出词向量中每一下标位置上的最大值。这句中，“每一个下标位置”得解释一下，小白用户会懵。

text_classification/README.md Outdated


		- embedding层：与DNN中embedding的作用一样，将英文单词转化为固定维度的向量。如图2中所示，将embedding得到的词向量定义为行向量，再将语料中所有的单词产生的行向量拼接在一起组成矩阵。假设embedding_size=5，语料“The cat sat on the read mat”包含7个单词，那么得到的矩阵维度为7*5。

		- 卷积层：文本分类中的卷积在时间序列上进行，即卷积核的宽度和embedding得到的矩阵一致，卷积验证矩阵的高度方向进行。假设卷积核的高度为h，矩阵的高度为N，卷积的step_size为1，则卷积后得到的feature map为一个高度为N+1-h的向量。可以同时使用多个不同高度的卷积核，得到多个feature map。

Contributor

luotao1 May 9, 2017

feature map也可以用中文词汇表示。

text_classification/README.md Outdated

+                  return cost, output
+              ```
+              该CNN网络的输入数据类型和前面介绍过的DNN一致。`paddle.networks.sequence_conv_pool`为Paddle中已经封装好的带有pooling的文本序列卷积模块，该模块的`context_len`参数用于指定卷积核在同一时间覆盖的文本长度，也即图2中的卷积核的高度；`hidden_size`用于指定该类型的卷积核的数量。可以看到，上述代码定义的结构中使用了128个大小为3的卷积核和128个大小为4的卷积核，这些卷积的结果经过max pooling和结果并置后产生一个256维的向量，向量经过一个全连接层输出最终预测结果。

Contributor

luotao1 May 9, 2017

Paddle-》PaddlePaddle，全文文字中的Paddle均需改成PaddlePaddle

text_classification/README.md Outdated


		- max pooling：max pooling在时间序列上进行，pooling过程消除了不同语料样本在单词数量多少上的差异，并提炼出词向量中每一下标位置上的最大值。经过pooling后，样本被转化为一条固定维度的向量。

		- 全连接隐层：经过max pooling后的向量被送入一个具有两个隐层的DNN模型，隐层之间为全连接结构。

Contributor

luotao1 May 9, 2017

22行送入“DNN模型”（可以去掉，或者换个别的词），因为整个是一个DNN模型，这里又写着送入DNN模型，会让小白用户觉得是递归了？

text_classification/README.md Outdated

+                  return cost, output
+              ```
+              该DNN模型默认对输入的语料进行二分类（`class_dim=2`），embedding的词向量维度默认为256(`emd_dim=256`)，两个隐层均使用Tanh激活函数（`act=paddle.activation.Tanh()`）。

Contributor

luotao1 May 9, 2017

67行第二个括号是英文括号，全文都是中文括号，建议统一。

JiayiFeng added 4 commits

May 9, 2017 14:21


          finish README.md

763615e


          finish README.md

304df71


          fix problems finded in review

225979c


          change README.md

3a712e0

lcy-seso requested changes

View reviewed changes

Collaborator

lcy-seso left a comment

Add a new section on how to feed user's data for training.

text_classification/README.md Outdated

		```

		该CNN网络的输入数据类型和前面介绍过的DNN一致。`paddle.networks.sequence_conv_pool`为Paddle中已经封装好的带有池化的文本序列卷积模块，该模块的`context_len`参数用于指定卷积核在同一时间覆盖的文本长度，也即图2中的卷积核的高度；`hidden_size`用于指定该类型的卷积核的数量。可以看到，上述代码定义的结构中使用了128个大小为3的卷积核和128个大小为4的卷积核，这些卷积的结果经过最大池化和结果并置后产生一个256维的向量，向量经过一个全连接层输出最终预测结果。

Collaborator

lcy-seso May 10, 2017

我有一个建议，PaddleBook 是目前官方唯一可以找到正式托管 V2 API 用法的“教程”，但是PaddleBook读数据直接 import paddle.dataset.×，隐层了读数据的过程。

普通用户如果需要替换自己的数据，还是会比较难以运行这些例子。我们可以简单地增加一节：使用用户数据训练。

Collaborator Author

JiayiFeng May 11, 2017

好的，将在接下来添加这一部分


          add and test auc evaluator

f18b572

JiayiFeng and others added 4 commits

May 10, 2017 15:26


          Merge pull request #2 from Canpio/dev

ae6a883

add and test auc evaluator


          remove copyright statement

18a4bd9


          add section of 'self-define data reader' into README.md

344a9a4


          update README.md

5a59fcd

lcy-seso requested changes

View reviewed changes

Collaborator

lcy-seso left a comment

The readme doc needs some modifications.

text_classification/README.md Outdated

@@ @@ -1 +1,187 @@ @@
-              TBD
+              # 文本分类
+              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的IMDB语料库训练二分类DNN和CNN模型，完成对语料的简单文本分类。

Collaborator

lcy-seso May 12, 2017

这里稍微用一两句话介绍一下IMDB数据集是一个什么样的数据集。对不了解这个任务的用户更加友好一些。

Collaborator Author

JiayiFeng May 12, 2017

关于IMDB的介绍在后面“实验数据”一节中有。为了避免用户读到这里时迷惑，准备在这里把IMBD去掉，直接表示为“有标注的语料库”

text_classification/README.md Outdated

+              # 文本分类
+              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的IMDB语料库训练二分类DNN和CNN模型，完成对语料的简单文本分类。
+              DNN与CNN模型之间最大的区别在于，CNN模型中存在卷积结构，而DNN大多使用基本的全连接结构。这使得CNN模型可以对语料信息中相邻单词组成的短语进行分析。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，而CNN模型则可能直接感知到"not bad"这个关键词组。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。

Collaborator

lcy-seso May 12, 2017

第一句话的标书仔细地琢磨不完全精确，改成下面这样。

DNN与CNN模型之间最大的区别在于：CNN是一种序列模型，能够提取一个局部区域之内的特征，能够处理变长的序列输入。而DNN大多使用基本的全连接结构，不是一种序列模型，只能接受固定维度的特征向量作为输入。

Collaborator

lcy-seso May 12, 2017

对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，这句话再补充一些：

对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，并且在输入时“not”和“bad”之间的顺序关系已经丢失，网络已经不再有机会学习到序列之间蕴含的特征。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md Outdated

+              DNN与CNN模型之间最大的区别在于，CNN模型中存在卷积结构，而DNN大多使用基本的全连接结构。这使得CNN模型可以对语料信息中相邻单词组成的短语进行分析。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，而CNN模型则可能直接感知到"not bad"这个关键词组。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。
+              ## 实验数据
+              本例子的实验在IMDB数据集上进行（[数据集下载](http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz)）。IMDB数据集包含了来自IMDb（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。数据集被划分为train和test两部分，各2.5万条数据，正负样本的比例基本为1:1。样本直接以英文原文的形式表示。

Collaborator

lcy-seso May 12, 2017

第二句话中的， IMDb-->IMDB。把“IMDB数据集包含了来自IMDb（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。” 这句话放在IMDB数据集第一次出现的位置。

Collaborator Author

JiayiFeng May 12, 2017

个人觉得“实验数据”这部分单独成节会比较合适。。。因此准备将上文中IMDB第一次出现的位置删去，让IMDB的概念到“实验数据”这一节里才第一次出现

text_classification/README.md Outdated


		可以看到，模型主要分为如下几个部分：

		- 词向量层：IMDB的样本由原始的英文单词组成，为了方便模型的训练，必须将英文单词转化为固定维度的向量。

Collaborator

lcy-seso May 12, 2017

“为了方便模型的训练，必须将英文单词转化为固定维度的向量” 这样解释词向量是粗暴地，会误导用户。词向量的出现并不是为了方便模型的训练。建议修改为更加好的向用户传达词向量价值的表述。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md Outdated


		- 词向量层：IMDB的样本由原始的英文单词组成，为了方便模型的训练，必须将英文单词转化为固定维度的向量。

		- 最大池化层：最大池化在时间序列上进行，池化过程消除了不同语料样本在单词数量多少上的差异，并提炼出词向量中每一下标位置上的最大值。经过池化后，样本被转化为一条固定维度的向量。例如，假设最大池化前的矩阵为`[[2,3,5],[7,3,6],[1,4,0]]`，该矩阵每一列代表一个词向量，则最大池化的结果为：`[[5],[7],[4]]`。

Collaborator

lcy-seso May 12, 2017

样本被转化为一条固定维度的向向量 --> 卷积层输出的向量的序列被转化为一条固定维度的向量。

Collaborator

lcy-seso May 12, 2017

假设最大池化前的矩阵为 --> 假设最大池化之前向量的序列为：

Collaborator Author

JiayiFeng May 12, 2017

done，此处“卷基层”应该是“词向量层”？

text_classification/README.md Outdated

+              每一行为一条样本，样本包括了原始语料和标签，语料内部的单词空格分隔，语料和标签之间用`\t`分隔。对于这样的数据我们可以如下编写数据读取接口：
+              ```python
+              def encode_word(word, word_dict):

Collaborator

lcy-seso May 12, 2017

在代码中为每一个参数添加注释。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md

+                  else:
+                      return word_dict['<unk>']
+              def data_reader(file_name, word_dict):

Collaborator

lcy-seso May 12, 2017

请按照python 的docstring 为每一个参数添加注释。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md Outdated

+                  return reader
+              ```
+              其中`word_dict`为事先准备好的将单词映射为id的词表。该`data_reader`可以替换代码中原先的`Paddle.dataset.imdb.train`用以数据提供。

Collaborator

lcy-seso May 12, 2017

word_dict是字典，用来讲原始的单词字符串转化为在字典中的序号。可以用data_reader替换原先代码中的Paddle.dataset.imdb.train接口用以提供自定义的训练数据。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md Outdated


		- fc_net函数：定义dnn网络结构，上文已经有说明。

		- train\_dnn\_model函数：模型训练函数。定义优化方式、训练输出等内容，并组织训练流程。该函数运行完成前会将训练得到的模型数保存至硬盘上的`dnn_params.tar.gz`文件中。本函数接受一个整数类型的参数，表示训练pass的轮数。

Collaborator

lcy-seso May 12, 2017

代码里已经按照pass_id 存储，这里也需要相应修改。

Collaborator Author

JiayiFeng May 12, 2017

done

text_classification/README.md

+              [ 0.98853314  0.01146684] 0
+              ```
+              每一行表示一条样本的预测结果。前两列表示该样本属于0、1这两个类别的预测概率，最后一列表示样本的实际label。

Collaborator

lcy-seso May 12, 2017

这里加上一些说明， CNN 模型的训练运行 ×，预测运行×。和DNN是一样的。

Collaborator Author

JiayiFeng May 12, 2017

done，感谢曹总的细致review


          update README.md and fine-tune network hyper-params to avoid over-fit…

55a88ad

…ting

lcy-seso requested changes

View reviewed changes

Collaborator

lcy-seso left a comment

some modifications on REAMDE.

text_classification/README.md Outdated

               - **全连接隐层**：经过最大池化后的向量被送入两个连续的隐层，隐层之间为全连接结构。
-              - **输出层**：输出层的神经元数量和样本的类别数一致，例如在二分类问题中，输出层会有2个神经元。通过Softmax激活函数，我们保证输出层各神经元的输出之和为1，因此第i个神经元的输出就可以认为是样本属于第i类的预测概率。
+              - **输出层**：输出层的神经元数量和样本的类别数一致，例如在二分类问题中，输出层会有2个神经元。通过Softmax激活函数，输出层神经元的输出结果归一化为一个概率分布，和为1，因此第i个神经元的输出就可以认为是样本属于第i类的预测概率。

Collaborator

lcy-seso May 15, 2017

”输出层神经元的输出结果归一化为一个概率分布“ 这句话略有不通顺，略作修改如下：
输出结果是一个归一化的概率分布，

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

@@ @@ -1,10 +1,10 @@ @@
               # 文本分类
-              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的IMDB语料库训练二分类DNN和CNN模型，完成对语料的简单文本分类。
+              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的语料库训练二分类DNN和CNN模型，完成对语料的简单文本分类。

Collaborator

lcy-seso May 15, 2017

在本例子中，我们利用有标注的IMDB电影评论语料库，训练二分类的DNN和CNN模型，完成对电影评论感情色彩的分类。

完成对语料的简单文本分类。 --> 完成对输入文本的分类任务。
第4行的例子提到的”not bad是决定这个句子情感的关键“，还是在出现这个例子之前，提一下“情感色彩分类”，避免比较突兀。

“简单”通常意义不甚明确，尽量避免“滥用”

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

    
              DNN与CNN模型之间最大的区别在于，CNN模型中存在卷积结构，而DNN大多使用基本的全连接结构。这使得CNN模型可以对语料信息中相邻单词组成的短语进行分析。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，而CNN模型则可能直接感知到"not bad"这个关键词组。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。

              DNN与CNN模型之间最大的区别在于：CNN是一种序列模型，能够提取一个局部区域之内的特征，能够处理变长的序列输入。而DNN大多使用基本的全连接结构，不是一种序列模型，只能接受固定维度的特征向量作为输入。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能感知到句子中有一个"not"和一个"bad"，并且在输入时“not”和“bad”之间的顺序关系已经丢失，网络已经不再有机会学习到序列之间蕴含的特征；而CNN模型则可能直接感知到"not bad"这个关键词组。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。

Collaborator

lcy-seso May 15, 2017

并且在输入时“not”和“bad”之间的顺序关系已经丢失，网络已经 [这个已经重复，删去] 不再有机会学习到序列之间蕴含的特征；
而CNN模型则可能直接感知到"not bad"这个关键词组 --> CNN模型接受文本序列作为输入，保留了"not bad"之间的顺序信息。（尽量用更精确的词汇传达信息，如果只留下“CNN模型可以直接感知”这样的表述，“感知“是一个比较抽象的概念，不便于普通用户对应到技术细节上）

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

               ## 实验数据
-              本例子的实验在IMDB数据集上进行（[数据集下载](http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz)）。IMDB数据集包含了来自IMDb（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。数据集被划分为train和test两部分，各2.5万条数据，正负样本的比例基本为1:1。样本直接以英文原文的形式表示。
+              本例子的实验在IMDB数据集上进行（[数据集下载](http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz)）。IMDB数据集包含了来自IMDB（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。数据集被划分为train和test两部分，各2.5万条数据，正负样本的比例基本为1:1。样本直接以英文原文的形式表示。

Collaborator

lcy-seso May 15, 2017

数据集下载这里可以删去，放在第一次引入 IMDB 时加上。

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

               **可以看到，模型主要分为如下几个部分：**
-              - **词向量层**：IMDB的样本由原始的英文单词组成，为了方便模型的训练，必须将英文单词转化为固定维度的向量。
+              - **词向量层**：IMDB的样本由原始的英文单词组成，为了更好地表示不同的词之间语义上的关系，首先将英文单词转化为固定维度的向量。训练完成后，词与词语义上的相似程度将可以用它们的词向量之间的距离来表示，语义上越相似，距离越近。

Collaborator

lcy-seso May 15, 2017

第一个句话之后加一句吧：关于词向量的解释请参考PaddleBook中的词向量一节。

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

@@ @@ -86,7 +97,7 @@ def fc_net(input_dim, class_dim=2, emb_dim=256): @@
               **可以看到，模型主要分为如下几个部分:**
-              - **词向量层**：与DNN中词向量层的作用一样，将英文单词转化为固定维度的向量。如图2中所示，将得到的词向量定义为行向量，再将语料中所有的单词产生的行向量拼接在一起组成矩阵。假设词向量维度为5，语料“The cat sat on the read mat”包含7个单词，那么得到的矩阵维度为7*5。
+              - **词向量层**：与DNN中词向量层的作用一样，将英文单词转化为固定维度的向量，利用向量之间的距离来表示词之间的语义相关程度。如图2中所示，将得到的词向量定义为行向量，再将语料中所有的单词产生的行向量拼接在一起组成矩阵。假设词向量维度为5，语料“The cat sat on the read mat”包含7个单词，那么得到的矩阵维度为7*5。

Collaborator

lcy-seso May 15, 2017

第一个句话之后加一句吧：关于词向量的解释请参考PaddleBook中的词向量一节。

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

                   cost = paddle.layer.classification_cost(input=output, label=lbl)
-                  return cost, output
+                  return cost, output, lbl
               ```
               该CNN网络的输入数据类型和前面介绍过的DNN一致。`paddle.networks.sequence_conv_pool`为Paddle中已经封装好的带有池化的文本序列卷积模块，该模块的`context_len`参数用于指定卷积核在同一时间覆盖的文本长度，也即图2中的卷积核的高度；`hidden_size`用于指定该类型的卷积核的数量。可以看到，上述代码定义的结构中使用了128个大小为3的卷积核和128个大小为4的卷积核，这些卷积的结果经过最大池化和结果并置后产生一个256维的向量，向量经过一个全连接层输出最终预测结果。

Collaborator

lcy-seso May 15, 2017

150行，Paddle --> PaddlePaddle

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated


		编写数据读取接口的关键在于实现一个Python生成器，生成器负责解析数据文件中的每一行内容，并组合成适当的数据形式传送给网络中的data layer。例如在本样例中，data layer需要的数据类型为`paddle.data_type.integer_value_sequence`，这本质上是一个Python list。因此我们的生成器需要完成的主要就是“从文件中读取数据”和“转换成适当形式的Python list”这两件事。
		编写数据读取接口的关键在于实现一个Python生成器，生成器负责从原始输入文集中解析出一条训练样本，并组合成适当的数据形式传送给网络中的data layer。例如在本样例中，data layer需要的数据类型为`paddle.data_type.integer_value_sequence`，这本质上是一个Python list。因此我们的生成器需要完成的主要就是“从文件中读取数据”和“转换成适当形式的Python list”这两件事。

Collaborator

lcy-seso May 15, 2017

生成器负责从原始输入文集中解析出一条训练样本 --> 生成器负责从原始输入文本中解析出一条训练样本，文集 --> 文本
这 [去掉这]本质上是一个Python list
最后一句话口语的痕迹比较重，略作修改：生成器主要完成：1. 从文件中读取数据, 2. 转换成适当形式的Python list，这两件事情。

Collaborator Author

JiayiFeng May 15, 2017

done

text_classification/README.md Outdated

    
              ```

              PaddlePaddle is good    1  

              What a terrible weather    0

              ```

              每一行为一条样本，样本包括了原始语料和标签，语料内部的单词空格分隔，语料和标签之间用`\t`分隔。对于这样的数据我们可以如下编写数据读取接口：

              每一行为一条样本，样本包括了原始语料和标签，语料内部单词以空格分隔，语料和标签之间用`\t`分隔。对于这样的数据，可以如下自定义的数据读取接口来为PaddlePaddle返回训练数据：

Collaborator

lcy-seso May 15, 2017

“对于这样的数据，可以如下自定义的数据读取接口来为PaddlePaddle返回训练数据” 不太通顺，缺动词。

对以上格式的数据，可以使用如下自定义的数据读取接口为PaddlePaddle返回训练数据。

Collaborator Author

JiayiFeng May 15, 2017

应该是写的时候手抖漏掉了……done

text_classification/README.md Outdated

    
            @@ -156,7 +197,7 @@ def data_reader(file_name, word_dict):
          
                  return reader

              ```

              其中`word_dict`为事先准备好的将单词映射为id的词表。该`data_reader`可以替换代码中原先的`Paddle.dataset.imdb.train`用以数据提供。

              `word_dict`是字典，用来讲原始的单词字符串转化为在字典中的序号。可以用`data_reader`替换原先代码中的`Paddle.dataset.imdb.train`接口用以提供自定义的训练数据。

Collaborator

lcy-seso May 15, 2017

讲 --> 将

Collaborator Author

JiayiFeng May 15, 2017

done。感谢曹总review！


          update README.md

b0071ff

lcy-seso requested changes

View reviewed changes

Collaborator

lcy-seso left a comment

small modifications.

.gitignore

    
            @@ -0,0 +1 @@
          
              .DS_Store

Collaborator

lcy-seso May 15, 2017

这个文件暂时先删掉吧。ignore mac 的这个文件比较奇怪。

Contributor

luotao1 May 16, 2017

这个文件还没删掉？

text_classification/.gitignore Outdated

		@@ -0,0 +1 @@
		temp/

Collaborator

lcy-seso May 15, 2017

这个在目前上传的脚本中，并没有用到 temp 文件夹吧？如果是这样，请先从版本库中删除。


          remove .gitignore

631ffdd

lcy-seso approved these changes

View reviewed changes

Collaborator

lcy-seso left a comment

LGTM

luotao1 requested changes

View reviewed changes

Contributor

luotao1 left a comment

还有一些小问题

.gitignore

    
            @@ -0,0 +1 @@
          
              .DS_Store

Contributor

luotao1 May 16, 2017

这个文件还没删掉？

text_classification/README.md Outdated

+              # 文本分类
+              文本分类是机器学习中的一项常见任务，主要目的是根据一条文本的内容，判断该文本所属的类别。在本例子中，我们利用有标注的语料库训练二分类DNN和CNN模型，完成对输入文本的分类任务。
+              DNN与CNN模型之间最大的区别在于：CNN是一种序列模型，能够提取一个局部区域之内的特征，能够处理变长的序列输入。而DNN大多使用基本的全连接结构，不是一种序列模型，只能接受固定维度的特征向量作为输入。举例来说，情感分类是一项常见的文本分类任务，在情感分类中，我们希望训练一个模型来判断句子中表现出的情感是正向还是负向。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能知道句子中有一个"not"和一个"bad"，并且在输入时“not”和“bad”之间的顺序关系已经丢失，网络不再有机会学习到序列之间蕴含的特征；而CNN模型接受文本序列作为输入，保留了"not bad"之间的顺序信息。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。

Contributor

luotao1 May 16, 2017

对比区别时使用列表更为清晰
既然开头是DNN与CNN，所以先讲DNN，后讲CNN。顺序要统一。

建议修改如下：

DNN与CNN模型之间最大的区别在于：

DNN不属于序列模型，大多使用基本的全连接结构，只能接受固定维度的特征向量作为输入。
CNN属于序列模型，能够提取一个局部区域之内的特征，从而处理变长的序列输入。

举例来说，情感分类是一项常见的文本分类任务。在情感分类中，我们希望训练一个模型来判断句子中表现出的情感是正向还是负向。例如，"The apple is not bad"，其中"not bad"是决定这个句子情感的关键。

对于DNN模型来说，只能知道句子中有一个"not"和一个"bad"，但两者之间的顺序关系在输入时已经丢失，网络不再有机会学习序列之间的顺序信息。
CNN模型接受文本序列作为输入，保留了"not bad"之间的顺序信息。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated

+              DNN与CNN模型之间最大的区别在于：CNN是一种序列模型，能够提取一个局部区域之内的特征，能够处理变长的序列输入。而DNN大多使用基本的全连接结构，不是一种序列模型，只能接受固定维度的特征向量作为输入。举例来说，情感分类是一项常见的文本分类任务，在情感分类中，我们希望训练一个模型来判断句子中表现出的情感是正向还是负向。例如，"The apple is not bad"，其中的"not bad"是决定这个句子情感的关键。对于DNN模型来说，只能知道句子中有一个"not"和一个"bad"，并且在输入时“not”和“bad”之间的顺序关系已经丢失，网络不再有机会学习到序列之间蕴含的特征；而CNN模型接受文本序列作为输入，保留了"not bad"之间的顺序信息。因此，在大多数文本分类任务上，CNN模型的表现要好于DNN。
+              ## 实验数据
+              本例子的实验在IMDB数据集上进行（[数据集下载](http://ai.stanford.edu/%7Eamaas/data/sentiment/aclImdb_v1.tar.gz)）。IMDB数据集包含了来自IMDB（互联网电影数据库）网站的5万条电影影评，并被标注为正面/负面两种评价。数据集被划分为train和test两部分，各2.5万条数据，正负样本的比例基本为1:1。样本直接以英文原文的形式表示。

Contributor

luotao1 May 16, 2017

本例子的实验在IMDB数据集上进行。

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md

+              <p align="center">
+              <img src="images/dnn_net.png" width = "90%" align="center"/><br/>
+              图1. DNN文本分类模型

Contributor

luotao1 May 16, 2017

这张图能显示出边框，请重新上传全白底的图片

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated


		可以看到，模型主要分为如下几个部分：

		- 词向量层：IMDB的样本由原始的英文单词组成，为了更好地表示不同的词之间语义上的关系，首先将英文单词转化为固定维度的向量。训练完成后，词与词语义上的相似程度将可以用它们的词向量之间的距离来表示，语义上越相似，距离越近。关于词向量的更多信息请参考PaddleBook中的[词向量](https://github.com/PaddlePaddle/book/tree/develop/04.word2vec)一节。

Contributor

luotao1 May 16, 2017

不同的词-》不同词
将可以（去掉将）

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated


		- 卷积层：文本分类中的卷积在时间序列上进行，即卷积核的宽度和词向量层产出的矩阵一致，卷积验证矩阵的高度方向进行。卷积后得到的结果被称为“特征图”（feature map）。假设卷积核的高度为h，矩阵的高度为N，卷积的步长为1，则得到的特征图为一个高度为N+1-h的向量。可以同时使用多个不同高度的卷积核，得到多个特征图。

		- 最大池化层: 对卷积得到的各个特征图分别进行最大池化操作。由于特征图本身已经是向量，因此这里的最大池化实际上就是简单地选出各个向量中的最大元素。各个最大元素又被并置在一起，组成新的向量，显然，该向量的维度等于特征图的数量，也就是卷积核的数量。

Contributor

luotao1 May 16, 2017

并置-》拼接？
DNN的最大池化举了例子，这里是否也可举个例子。

Collaborator Author

JiayiFeng May 16, 2017

确实是“拼接”表达得更加精确，done

text_classification/README.md Outdated

+                  return cost, output, lbl
+              ```
+              该CNN网络的输入数据类型和前面介绍过的DNN一致。`paddle.networks.sequence_conv_pool`为PaddlePaddle中已经封装好的带有池化的文本序列卷积模块，该模块的`context_len`参数用于指定卷积核在同一时间覆盖的文本长度，也即图2中的卷积核的高度；`hidden_size`用于指定该类型的卷积核的数量。可以看到，上述代码定义的结构中使用了128个大小为3的卷积核和128个大小为4的卷积核，这些卷积的结果经过最大池化和结果并置后产生一个256维的向量，向量经过一个全连接层输出最终预测结果。

Contributor

luotao1 May 16, 2017

也即-》即
并置-》拼接？

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated

+              ## 自定义数据
+              本样例中的代码通过`Paddle.dataset.imdb.train`接口使用了PaddlePaddle自带的样例数据，在第一次运行代码时，PaddlePaddle会自动下载并缓存所需的数据。如果希望使用自己的数据进行训练，需要自行编写数据读取接口。
+              编写数据读取接口的关键在于实现一个Python生成器，生成器负责从原始输入文本中解析出一条训练样本，并组合成适当的数据形式传送给网络中的data layer。例如在本样例中，data layer需要的数据类型为`paddle.data_type.integer_value_sequence`，本质上是一个Python list。因此我们的生成器需要完成：1. 从文件中读取数据, 2. 转换成适当形式的Python list，这两件事情。

Contributor

luotao1 May 16, 2017

因此我们的生成器需要完成：从文件中读取数据，以及转换成适当形式的Python list，这两件事情。

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated


		- main函数：主函数

		要运行本样例，直接在`text_classification_dnn.py`所在路径下执行`python ./text_classification_dnn.py`即可，样例会自动依次执行数据集下载、数据读取、模型训练和保存、模型读取、新样本预测等步骤。

Contributor

luotao1 May 16, 2017

一般运行命令是python text_classification_dnn.py

Collaborator Author

JiayiFeng May 16, 2017

done

text_classification/README.md Outdated


		每一行表示一条样本的预测结果。前两列表示该样本属于0、1这两个类别的预测概率，最后一列表示样本的实际label。

		在运行CNN的模型的`text_classification_cnn.py`脚本中，网络模型定义在`convolution_net`函数中，模型训练函数名为`train_cnn_model`，预测函数名为`cnn_infer`。其他的用法和`text_classification_dnn.py`是一致的。

Contributor

luotao1 May 16, 2017

去掉多余“的”字：

运行CNN模型
其他用法

Collaborator Author

JiayiFeng May 16, 2017

done


          update README.md and renew dnn_net.png

e6cfcf1

Contributor

luotao1 commented May 17, 2017

LGTM。最后还有一个问题，图中：The cat sat on the read mat 。read应该是red， @livc 在book中修复过了 PaddlePaddle/book#313

JiayiFeng added 2 commits

May 17, 2017 12:48


          read->red

f46dcb1


          read->red

6ff3565

Collaborator Author

JiayiFeng commented May 17, 2017

read和red的问题已经修复

luotao1 approved these changes

View reviewed changes

luotao1 merged commit 6f06bb6 into PaddlePaddle:develop

pakchoi reviewed

View reviewed changes

text_classification/README.md


		## DNN模型

		DNN的模型结构入下图所示：

Contributor

pakchoi May 24, 2017

“DNN的模型结构如下图所示：”，有个错别字

HongyuLi2018 pushed a commit that referenced this pull request


          Merge pull request #24 from PaddlePaddle/develop

e84d971

update

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet