PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 #653

lcy-seso · 2016-11-29T09:22:54Z

使用 PyDataProvider2 ，当设置的 min_pool_size 小于训练/测试样本总数时，训练和测试都会出现丢弃样本的情况。

* But not reproduce the problem.

Add unittest related #653

lcy-seso · 2016-12-07T04:47:22Z

输入 3 个slot，分别是：

dense_vector(60, seq_type=SequenceType.SEQUENCE)， 
dense_vector(1, seq_type=SequenceType.SEQUENCE)， 
dense_vector(1, seq_type=SequenceType.SEQUENCE)

测试样本集总样本 3104 条，provider 参数设置如下：

@provider(use_seq=True,
          pool_size=100,
          min_pool_size=100,
          init_hook=on_init,
          should_shuffle=True)

走 paddle的 job = test，每次测试的样本数目都不太一样。什么都不修改，run 四次测试脚本出现过 161， 163， 342， 100；
增大 pool_size 超过总测试样本数，现象一致。只有增大 min_pool_size 超过总测试样本数目时，才会测试所有测试样本。
在以上测试过程中没有设置 MEM_DATA_IN_PASS，可能和memory 没有关系。

lcy-seso · 2016-12-07T07:04:40Z

补充一些测试结果。

以上现象和 cache=CacheType.CACHE_PASS_IN_MEM 无关；
出错的配置是这样：

dense_vector(60, seq_type=SequenceType.SEQUENCE)， 
dense_vector(1, seq_type=SequenceType.SEQUENCE)， 
dense_vector(1, seq_type=SequenceType.SEQUENCE)

yield 时：

yield vec, [[label]], [[seq_type]]

其中， label 和 seq_type 是 int （这里会不会有问题？）；

后两个 slot 可以替换成 integer_value ，yield 时也相应改变，
变成如下定义形式：

dense_vector(60, seq_type=SequenceType.SEQUENCE),
integer_value(1),
integer_value(1)

yield 时：

yield vec, label, seq_type

以上错误消失

训练时，使用integer_value 作为label，设置 min_pool_size 小于 training sample 的总数，没有出现丢样本的问题。

lcy-seso · 2016-12-07T07:20:17Z

string_slot 在预测时遇到以下两种情况，会有一定的价值，希望后期可以支持。
-（1）dataprovider 里面处理原始数据，丢弃不合法数据；

这样可以把原始数据通过string slot 给进去，直接拿结果，而不用记录哪些样本被丢弃，再做后处理将预测结果与原始输入拼接。对小数据评估比较方便。

-（2） label 本身是string；

如果支持string slot，测试就可以避免做一次string 到id 的映射，然后再映射回去，这样的操作；

string slot 都不会参与具体的运算，会在预测过程中提供一定的便利性。

reyoung · 2016-12-07T07:24:53Z

dataprovider 里面处理原始数据，丢弃不合法数据；

支持，请查询check参数

lcy-seso · 2016-12-07T07:27:11Z

嗯~ 这个是想和 string slot一起使用，string slot确实是可以没有的，有的话，有一点点的便利性。

luotao1 · 2016-12-07T07:43:48Z

https://github.com/PaddlePaddle/Paddle/blob/develop/paddle/gserver/dataproviders/PyDataProvider.cpp 里面有string slot的

lcy-seso · 2016-12-07T07:45:14Z

PydataProvider2 里面应该还没有。这个东西确实没啥实际用处。就是评估会方便一点点。

* fix_windows * Final update 1.3 (PaddlePaddle#653) * thorough clean * delete_DS_Store * update_1.3

* synchronize with develop (PaddlePaddle#642) * update_commitid1.3 (PaddlePaddle#641) * update inference c++ API doc (PaddlePaddle#634) * update inference c++ API doc * fix link * thorough clean for doc (PaddlePaddle#644) * thorough clean * delete_DS_Store * Cherrypick1.3 (PaddlePaddle#652) * thorough clean * delete_DS_Store * [Don't merge now]update_install_doc (PaddlePaddle#643) * update_install_doc * follow_comments * add maxdepth (PaddlePaddle#646) * upload_md (PaddlePaddle#649) * update_version (PaddlePaddle#650) * Translation of 16 new apis (PaddlePaddle#651) * fix_windows * Final update 1.3 (PaddlePaddle#653) * thorough clean * delete_DS_Store * update_1.3 * Deadlink fix (PaddlePaddle#654) * fix_deadlinks * update_docker * Update release_note.rst * Update index_cn.rst * update_Paddle (PaddlePaddle#658) * fix pic (PaddlePaddle#659) * [to 1.3] cn api debug (PaddlePaddle#655) (PaddlePaddle#661) * debug * fix 2 -conv2d * "锚" ==> anchor(s)

* synchronize with develop (PaddlePaddle#642) * update_commitid1.3 (PaddlePaddle#641) * update inference c++ API doc (PaddlePaddle#634) * update inference c++ API doc * fix link * thorough clean for doc (PaddlePaddle#644) * thorough clean * delete_DS_Store * Cherrypick1.3 (PaddlePaddle#652) * thorough clean * delete_DS_Store * [Don't merge now]update_install_doc (PaddlePaddle#643) * update_install_doc * follow_comments * add maxdepth (PaddlePaddle#646) * upload_md (PaddlePaddle#649) * update_version (PaddlePaddle#650) * Translation of 16 new apis (PaddlePaddle#651) * fix_windows * Final update 1.3 (PaddlePaddle#653) * thorough clean * delete_DS_Store * update_1.3 * Deadlink fix (PaddlePaddle#654) * fix_deadlinks * update_docker * Update release_note.rst * Update index_cn.rst * update_Paddle (PaddlePaddle#658) * fix pic (PaddlePaddle#659) * [to 1.3] cn api debug (PaddlePaddle#655) (PaddlePaddle#661) * debug * fix 2 -conv2d * "锚" ==> anchor(s) * Weekly cherrypick0302 (PaddlePaddle#668) * Update programming_guide.md (PaddlePaddle#664) * Update programming_guide.md * Update programming_guide_en.md * Update cn api to 1.3 (PaddlePaddle#663) * Update cn api to 1.3 fluid & layers * Rest to 1.3 * Weeklyupdate 0301 (PaddlePaddle#666) * Tables_rm_op * update_op * update_index * update_book_0302 (PaddlePaddle#667) * fix_format (PaddlePaddle#669) (PaddlePaddle#670) * fix_format * Update Tables.md * Update Tables_en.md * add dataset api_cn (PaddlePaddle#673) * rm fluid.core in desigin_idea (PaddlePaddle#674) * Update fluid_design_idea.md * Update fluid_design_idea_en.md * Fix array_read code example error. (PaddlePaddle#671) Signed-off-by: zhaoyuchen <[email protected]> * add data_reader_cn (PaddlePaddle#676) * fix doc error (PaddlePaddle#675) * update_book_commitid (PaddlePaddle#680) * update_book_commitid * commitid0309 * fix typo * book indexes (PaddlePaddle#677)

add ernie-doc to ernie develop

reyoung added a commit to reyoung/Paddle that referenced this issue Dec 7, 2016

Add unittest related PaddlePaddle#653

1539335

* But not reproduce the problem.

reyoung mentioned this issue Dec 7, 2016

Add unittest related #653 #752

Merged

gangliao added a commit that referenced this issue Dec 7, 2016

Merge pull request #752 from reyoung/feature/fix_data_loss_in_pydp2

adc23f6

Add unittest related #653

reyoung added Bug NeedMoreDetails labels Dec 7, 2016

reyoung changed the title ~~PyDataProvider2 min_pool_size 小于总样本数目时，训练和测试都会丢弃样本。~~ PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 Dec 7, 2016

Superjomn closed this as completed Jul 29, 2017

zhhsplendid pushed a commit to zhhsplendid/Paddle that referenced this issue Sep 25, 2019

Cherrypicktodev_1 (PaddlePaddle#660)

2f6c97f

* fix_windows * Final update 1.3 (PaddlePaddle#653) * thorough clean * delete_DS_Store * update_1.3

Meiyim pushed a commit to Meiyim/Paddle that referenced this issue May 21, 2021

Merge pull request PaddlePaddle#653 from dingsiyu/ernie-doc

4b1b4ee

add ernie-doc to ernie develop

yaozhixin pushed a commit to graphcore/Paddle-fork that referenced this issue Apr 28, 2022

add NameScopeHelper (PaddlePaddle#653)

3ebe5c1

heavengate pushed a commit to heavengate/Paddle that referenced this issue Aug 24, 2022

fix bugs (PaddlePaddle#653)

067ef89

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 #653

PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 #653

lcy-seso commented Nov 29, 2016

lcy-seso commented Dec 7, 2016 •

edited

Loading

lcy-seso commented Dec 7, 2016 •

edited

Loading

lcy-seso commented Dec 7, 2016 •

edited

Loading

reyoung commented Dec 7, 2016

lcy-seso commented Dec 7, 2016

luotao1 commented Dec 7, 2016

lcy-seso commented Dec 7, 2016 •

edited by reyoung

Loading

PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 #653

PyDataProvider2在混合使用min_pool_size,integer_sequence, dense_sequence的情况下，疑似有数据丢失 #653

Comments

lcy-seso commented Nov 29, 2016

lcy-seso commented Dec 7, 2016 • edited Loading

lcy-seso commented Dec 7, 2016 • edited Loading

lcy-seso commented Dec 7, 2016 • edited Loading

reyoung commented Dec 7, 2016

lcy-seso commented Dec 7, 2016

luotao1 commented Dec 7, 2016

lcy-seso commented Dec 7, 2016 • edited by reyoung Loading

lcy-seso commented Dec 7, 2016 •

edited

Loading

lcy-seso commented Dec 7, 2016 •

edited

Loading

lcy-seso commented Dec 7, 2016 •

edited

Loading

lcy-seso commented Dec 7, 2016 •

edited by reyoung

Loading