Skip to content

mynlp/court_interpreter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

大規模言語モデルの法廷通訳への導入可能性の検証

データセット

dataset ディレクトリに以下の3つのデータセットが格納されています。

  • handbook.tsv: 「法廷通訳ハンドブック」の日本語原文とその対訳(中国語、英語、ベトナム語)。
  • handbook_filtered.tsv: handbook.tsv から簡単な文や重複する文を除いたもの。実験ではこちらを使用。
  • question.tsv: GPT-4oを用いて生成した法廷で使われる疑問文のデータセット(日本語のみ)。

handbook.tsv および handbook_filtered.tsv の出典は以下の三冊です(データセット公開許諾済み)。

・法廷通訳ハンドブック実践編 中国語   (出版: 法曹会)
・法廷通訳ハンドブック実践編 英語    (出版: 法曹会)
・法廷通訳ハンドブック実践編 ベトナム語 (出版: 法曹会)

翻訳文と評価用データ

output/translation 以下にあります。

末尾がシステム名(azure, gpt, llama)になっているものはそのシステムによる翻訳文です。
末尾がevaluation_set_{language}となっているものは評価用データで、各システムの翻訳文(および法廷通訳ハンドブックの対訳文)をランダムにシャッフルして提示しています。 評価時には mapping 列を隠して提示しました。

評価結果

output/evaluation に以下の評価指標における評価結果が格納されています(太字は言語処理学会の予稿で取り上げたもの)。

  • BERTScore
  • BLEU
  • COMET
  • COMET (Reference free)
  • 人手評価
  • LLM-as-a-Judge

末尾が remapped となっているものが各翻訳システムごとの評価結果です。

論文情報

山岸 聖子, 神藤 駿介, 宮尾 祐介. "大規模言語モデルの法廷通訳への導入可能性の検証". 言語処理学会2025. 論文PDF.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages