-
Notifications
You must be signed in to change notification settings - Fork 214
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
CPM-Bee数据格式相关问题 #10
Comments
只需要把每个子任务处理成相应的格式,然后把所有数据混合起来微调就可以了。 |
例如:翻译的任务,处理成这个格式: 我看了一下微调代码,最终送入到模型中的其实是字符串: 请问我理解的对吗?谢谢,盼复 |
对的 |
请问为什么要将模型的输入输出设置为JSON格式呢? |
我们的考虑是减少在大家花在数据处理上的精力,结构化的格式在处理具体的下游任务时也更加方便和可控。另外,如果微调模型的话,也不必拘泥于README中写的几种格式,大家可以自己定义JSON中的键值,只须将输出结果放在 |
請問preprocess_dataset.py 要的 raw data 具體到底是要什麼格式? 我注意到 reformat_data 這個功能並沒有實現。
我目前有一份簡單的對話資料以 json 格式儲存, 內容如下。要怎麼處理成可以增量微調的格式呢? |
raw_data是自由的,reformat_data的功能是将任意格式的raw_data转换为CPM-Bee格式的数据,这个功能需要您根据raw_data去实现,可以参考tutorials,里面的data_reformat.py实际上就是这里的reformat_data的实现 |
请问如果想要在CPM-Bee模型上同时微调几个不同的子任务,数据格式需要设置成什么样的?谢谢,盼复
The text was updated successfully, but these errors were encountered: