大規模言語モデルの法廷通訳への導入可能性の検証

データセット

dataset ディレクトリに以下の3つのデータセットが格納されています。

handbook.tsv: 「法廷通訳ハンドブック」の日本語原文とその対訳（中国語、英語、ベトナム語）。
handbook_filtered.tsv: handbook.tsv から簡単な文や重複する文を除いたもの。実験ではこちらを使用。
question.tsv: GPT-4oを用いて生成した法廷で使われる疑問文のデータセット（日本語のみ）。

handbook.tsv および handbook_filtered.tsv の出典は以下の三冊です（データセット公開許諾済み）。

・法廷通訳ハンドブック実践編 中国語　　　（出版: 法曹会）
・法廷通訳ハンドブック実践編 英語　　　　（出版: 法曹会）
・法廷通訳ハンドブック実践編 ベトナム語　（出版: 法曹会）

翻訳文と評価用データ

output/translation 以下にあります。

末尾がシステム名(azure, gpt, llama)になっているものはそのシステムによる翻訳文です。
末尾がevaluation_set_{language}となっているものは評価用データで、各システムの翻訳文（および法廷通訳ハンドブックの対訳文）をランダムにシャッフルして提示しています。評価時には mapping 列を隠して提示しました。

評価結果

output/evaluation に以下の評価指標における評価結果が格納されています（太字は言語処理学会の予稿で取り上げたもの）。

BERTScore
BLEU
COMET
COMET (Reference free)
人手評価
LLM-as-a-Judge

末尾が remapped となっているものが各翻訳システムごとの評価結果です。

論文情報

山岸聖子, 神藤駿介, 宮尾祐介. "大規模言語モデルの法廷通訳への導入可能性の検証". 言語処理学会2025. 論文PDF.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
court_interpreter		court_interpreter
dataset		dataset
dataset_pre		dataset_pre
output		output
tests		tests
.gitignore		.gitignore
README.md		README.md
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大規模言語モデルの法廷通訳への導入可能性の検証

データセット

翻訳文と評価用データ

評価結果

論文情報

About

Releases

Packages

Languages

mynlp/court_interpreter

Folders and files

Latest commit

History

Repository files navigation

大規模言語モデルの法廷通訳への導入可能性の検証

データセット

翻訳文と評価用データ

評価結果

論文情報

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages