Remove dependency on nltk for paddle init. #27388

guoshengCS · 2020-09-17T11:37:02Z

PR types

Others

PR changes

Others

Describe

Remove dependency on nltk for paddle init.

test=develop

paddle-bot-old · 2020-09-17T11:37:10Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

paddle-bot-old · 2020-09-17T11:37:12Z

✅ This PR's description meets the template requirements!
Please wait for other CI results.

guoshengCS · 2020-09-18T02:25:39Z

2020-09-17 19:48:22 ****************
2020-09-17 19:48:22 0. You must have one RD (XiaoguangHu01 or lanxianghit) and one TPM (saxon-zh or jzhang533 or swtkiwi or Heeenrrry or TCChenlong) approval for the api change for the management reason of API interface.
2020-09-17 19:48:22 
2020-09-17 19:48:22 There are 1 approved errors.
2020-09-17 19:48:22 ****************
2020-09-17 19:48:22 API Difference is: 
2020-09-17 19:48:22 - paddle.dataset.sentiment.train (ArgSpec(args=[], varargs=None, keywords=None, defaults=None), ('document', '5337749ac9c45d13f4ef6e992b2f0ff8'))
2020-09-17 19:48:22 ?

还请 @XiaoguangHu01 @jzhang533 @swtkiwi 帮忙review

jzhang533

看起来只用到了nltk.download

可以把这两个数据集手动下载下来，上传到https://dataset.bj.bcebos.com上。（甚至可以线下先处理好数据格式），然后代码里下载及加载数据即可。
用户环境里完全不需要有nltk吗？

guoshengCS · 2020-09-18T02:55:17Z

当前数据集已经上传，目前会优先从 https://dataset.bj.bcebos.com 下载 https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/dataset/sentiment.py#L45

还用到了movie_review接口，这个有nltk的数据集设计在里面 https://github.com/PaddlePaddle/Paddle/blob/develop/python/paddle/dataset/sentiment.py#L80 相对麻烦些

def get_word_dict():
    """
    Sorted the words by the frequency of words which occur in sample
    :return:
        words_freq_sorted
    """
    words_freq_sorted = list()
    word_freq_dict = collections.defaultdict(int)
    download_data_if_not_yet()

    for category in movie_reviews.categories():
        for field in movie_reviews.fileids(category):
            for words in movie_reviews.words(field):
                word_freq_dict[words] += 1
    words_sort_list = list(six.iteritems(word_freq_dict))
    words_sort_list.sort(key=cmp_to_key(lambda a, b: b[1] - a[1]))
    for index, word in enumerate(words_sort_list):
        words_freq_sorted.append((word[0], index))
    return words_freq_sorted

jzhang533

下载数据好像不需要一个back off策略，即便需要，从 http://www.cs.cornell.edu/people/pabo/movie-review-data/review_polarity.tar.gz 下载也会更合适。
get_word_dict 是统计词表的吧，这个自己实现也不麻烦。（肯定比实现RNN简单多了）
为了一个3M的moview_reviews数据集，引入一个nltk，太不值当了。

jzhang533

跟泽裕商量了一下。这个数据集直接delete好了，基于以下原因：

初步调研看到没有教程或者项目依赖本数据集提供的接口；
相关的功能有计划迁移至paddlenlp；
情感分析类的任务的示例教程不依赖这个数据集
干净的去掉nltk，可以优化安装体验

TODO：
麻烦删除相关的code和fluiddoc中的文档。

test=develop

guoshengCS · 2020-09-21T05:06:27Z

相关文档已在FluidDoc中提交删除PR PaddlePaddle/docs#2664

jzhang533

lgtm

saxon-zh

LGTM

XiaoguangHu01

LGTM

Remove dependency on nltk for paddle __init__.

7d2f25b

test=develop

guoshengCS requested review from XiaoguangHu01 and jzhang533 September 18, 2020 02:24

guoshengCS requested a review from swtkiwi September 18, 2020 02:30

jzhang533 reviewed Sep 18, 2020

View reviewed changes

Remove nltk.movie_reivew sentiment dataset to remove dependency on nltk.

16f0efe

test=develop

guoshengCS mentioned this pull request Sep 21, 2020

Delete movie_review and sentiment dataset to remove NLTK dependency. PaddlePaddle/docs#2664

Merged

guoshengCS requested a review from kolinwei September 21, 2020 05:37

kolinwei approved these changes Sep 21, 2020

View reviewed changes

guoshengCS requested a review from saxon-zh September 22, 2020 05:50

jzhang533 approved these changes Sep 23, 2020

View reviewed changes

saxon-zh approved these changes Sep 23, 2020

View reviewed changes

XiaoguangHu01 approved these changes Sep 23, 2020

View reviewed changes

guoshengCS merged commit 081fb2f into PaddlePaddle:develop Sep 24, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Remove dependency on nltk for paddle init. #27388

Remove dependency on nltk for paddle init. #27388

guoshengCS commented Sep 17, 2020 •

edited

Loading

paddle-bot-old bot commented Sep 17, 2020

paddle-bot-old bot commented Sep 17, 2020 •

edited

Loading

guoshengCS commented Sep 18, 2020 •

edited

Loading

jzhang533 left a comment

guoshengCS commented Sep 18, 2020

jzhang533 left a comment

jzhang533 left a comment •

edited

Loading

guoshengCS commented Sep 21, 2020

jzhang533 left a comment

saxon-zh left a comment

XiaoguangHu01 left a comment

Remove dependency on nltk for paddle __init__. #27388

Remove dependency on nltk for paddle __init__. #27388

Conversation

guoshengCS commented Sep 17, 2020 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Sep 17, 2020

paddle-bot-old bot commented Sep 17, 2020 • edited Loading

guoshengCS commented Sep 18, 2020 • edited Loading

jzhang533 left a comment

Choose a reason for hiding this comment

guoshengCS commented Sep 18, 2020

jzhang533 left a comment

Choose a reason for hiding this comment

jzhang533 left a comment • edited Loading

Choose a reason for hiding this comment

guoshengCS commented Sep 21, 2020

jzhang533 left a comment

Choose a reason for hiding this comment

saxon-zh left a comment

Choose a reason for hiding this comment

XiaoguangHu01 left a comment

Choose a reason for hiding this comment

Remove dependency on nltk for paddle init. #27388

Remove dependency on nltk for paddle init. #27388

guoshengCS commented Sep 17, 2020 •

edited

Loading

paddle-bot-old bot commented Sep 17, 2020 •

edited

Loading

guoshengCS commented Sep 18, 2020 •

edited

Loading

jzhang533 left a comment •

edited

Loading