Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

MARC-ja のリンクが切れている #11

Open
ryokan0123 opened this issue Jul 28, 2023 · 2 comments
Open

MARC-ja のリンクが切れている #11

ryokan0123 opened this issue Jul 28, 2023 · 2 comments

Comments

@ryokan0123
Copy link
Collaborator

ryokan0123 commented Jul 28, 2023

2023/7/28 現在、MARC-ja のデータセットの配布元のリンクが切れてしまっています。
https://s3.amazonaws.com/amazon-reviews-pds/tsv/amazon_reviews_multilingual_JP_v1_00.tsv.gz
MARC-ja を使用するノートブックで、データセット読み込みの箇所でエラーが出る状態です。

問い合わせのメールを送り、復旧待機中です。

@hayatoshibahara
Copy link

2023/8/25 現在もリンクが切れていて、第5章のコードを実行できないです。ご対応いただけると助かります。

@ryokan0123
Copy link
Collaborator Author

ryokan0123 commented Aug 27, 2023

お問合せありがとうございます。
こちらは Amazon 社がオリジナルのデータセットの配布を中止をしたとの知らせを受けています。
一方で、データが利用が継続できるように働きかけもなされているそうですので、MARC-ja の状況に関しては今後の続報をお待ちください。

また感情分析タスクに関しては、代わりとなる WRIME データセットの実装を用意しております。
本書のデータセットの読み込み箇所を、適宜以下のような表記に置き換えると、感情分析の学習や分析を行うことができます。

from datasets import load_dataset

train_dataset = load_dataset("llm-book/wrime-sentiment", split="train")
valid_dataset = load_dataset("llm-book/wrime-sentiment", split="validation")

以下のノートブックもよろしければご参考にしてください。

節/項 Colab Link
第 5 章 大規模言語モデルのファインチューニング 5.2 感情分析モデルの実装 Open in Colab Link (WRIME)
5.3 感情分析モデルのエラー分析 Open in Colab Link (WRIME)

お手数をおかけしますが、どうぞよろしくお願いいたします。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants