Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

CPM-Bee数据格式相关问题 #10

Closed
jiezhangGt opened this issue May 28, 2023 · 7 comments
Closed

CPM-Bee数据格式相关问题 #10

jiezhangGt opened this issue May 28, 2023 · 7 comments
Labels
question Further information is requested

Comments

@jiezhangGt
Copy link

请问如果想要在CPM-Bee模型上同时微调几个不同的子任务,数据格式需要设置成什么样的?谢谢,盼复

@zh-zheng
Copy link
Collaborator

只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。

@jiezhangGt
Copy link
Author

jiezhangGt commented May 29, 2023

只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。

例如:翻译的任务,处理成这个格式:
{"input": "北京是中国的首都", "prompt": "中翻英", "<ans>": "Beijing is the capital of China"}

我看了一下微调代码,最终送入到模型中的其实是字符串:
<s><root></s><s>input</s><s>北京是中国的首都</s><s>prompt</s><s>中翻英</s><s><ans></s><s>Beijing is the capital of China<pad><pad><pad><pad><pad>

请问我理解的对吗?谢谢,盼复

@zh-zheng
Copy link
Collaborator

只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。

例如:翻译的任务,处理成这个格式: {"input": "北京是中国的首都", "prompt": "中翻英", "<ans>": "Beijing is the capital of China"}

我看了一下微调代码,最终送入到模型中的其实是字符串: <s><root></s><s>input</s><s>北京是中国的首都</s><s>prompt</s><s>中翻英</s><s><ans></s><s>Beijing is the capital of China<pad><pad><pad><pad><pad>

请问我理解的对吗?谢谢,盼复

对的

@zetian1025
Copy link

请问为什么要将模型的输入输出设置为JSON格式呢?
当时这样做是有什么考虑吗?或者觉得JSON有什么好处?

@zh-zheng zh-zheng added the question Further information is requested label May 31, 2023
@zh-zheng
Copy link
Collaborator

zh-zheng commented Jun 1, 2023

请问为什么要将模型的输入输出设置为JSON格式呢? 当时这样做是有什么考虑吗?或者觉得JSON有什么好处?

我们的考虑是减少在大家花在数据处理上的精力,结构化的格式在处理具体的下游任务时也更加方便和可控。另外,如果微调模型的话,也不必拘泥于README中写的几种格式,大家可以自己定义JSON中的键值,只须将输出结果放在<ans>中即可。

@zh-zheng zh-zheng pinned this issue Jun 1, 2023
@zh-zheng zh-zheng closed this as completed Jun 1, 2023
@Wayne-wonderai
Copy link

請問preprocess_dataset.py 要的 raw data 具體到底是要什麼格式? 我注意到 reformat_data 這個功能並沒有實現。

def reformat_data(data):
    """set your data format"""
    return data

我目前有一份簡單的對話資料以 json 格式儲存, 內容如下。要怎麼處理成可以增量微調的格式呢?
[ {
"input": "你現在扮演一個溫柔禦姐",
"question": "我們看一部電影讓你忘掉是非如何?",
"ans": "看一部好電影或許可以放鬆心情,解壓減壓喔!"
},]

@gongbaitao
Copy link
Collaborator

raw_data是自由的,reformat_data的功能是将任意格式的raw_data转换为CPM-Bee格式的数据,这个功能需要您根据raw_data去实现,可以参考tutorials,里面的data_reformat.py实际上就是这里的reformat_data的实现

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

5 participants