dataset
ディレクトリに以下の3つのデータセットが格納されています。
handbook.tsv
: 「法廷通訳ハンドブック」の日本語原文とその対訳(中国語、英語、ベトナム語)。handbook_filtered.tsv
:handbook.tsv
から簡単な文や重複する文を除いたもの。実験ではこちらを使用。question.tsv
: GPT-4oを用いて生成した法廷で使われる疑問文のデータセット(日本語のみ)。
handbook.tsv
および handbook_filtered.tsv
の出典は以下の三冊です(データセット公開許諾済み)。
・法廷通訳ハンドブック実践編 中国語 (出版: 法曹会)
・法廷通訳ハンドブック実践編 英語 (出版: 法曹会)
・法廷通訳ハンドブック実践編 ベトナム語 (出版: 法曹会)
output/translation
以下にあります。
末尾がシステム名(azure
, gpt
, llama
)になっているものはそのシステムによる翻訳文です。
末尾がevaluation_set_{language}
となっているものは評価用データで、各システムの翻訳文(および法廷通訳ハンドブックの対訳文)をランダムにシャッフルして提示しています。
評価時には mapping
列を隠して提示しました。
output/evaluation
に以下の評価指標における評価結果が格納されています(太字は言語処理学会の予稿で取り上げたもの)。
- BERTScore
- BLEU
- COMET
- COMET (Reference free)
- 人手評価
- LLM-as-a-Judge
末尾が remapped
となっているものが各翻訳システムごとの評価結果です。
山岸 聖子, 神藤 駿介, 宮尾 祐介. "大規模言語モデルの法廷通訳への導入可能性の検証". 言語処理学会2025. 論文PDF.