From 2668eebe65acf3f3235bc7a57643215ca591cff2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=95=B7=E6=BE=A4=E6=98=A5=E5=B8=8C?= Date: Fri, 2 Dec 2022 17:02:01 +0900 Subject: [PATCH] slightly modified --- chapters/ja/_toctree.yml | 7 +++++++ chapters/ja/chapter2/4.mdx | 4 ++-- chapters/ja/chapter2/5.mdx | 2 +- 3 files changed, 10 insertions(+), 3 deletions(-) diff --git a/chapters/ja/_toctree.yml b/chapters/ja/_toctree.yml index fb3be77b8..cdd31e8f1 100644 --- a/chapters/ja/_toctree.yml +++ b/chapters/ja/_toctree.yml @@ -26,6 +26,13 @@ - local: chapter1/10 title: 章末クイズ +- title: 2. 🤗 Transformersの使用 + sections: + - local: chapter2/4 + title: トークナイザ + - local: chapter2/5 + title: 複数系列の処理 + - title: 4. モデルとトークナイザーの共有 sections: - local: chapter4/1 diff --git a/chapters/ja/chapter2/4.mdx b/chapters/ja/chapter2/4.mdx index 0c2fa5c53..630e58989 100644 --- a/chapters/ja/chapter2/4.mdx +++ b/chapters/ja/chapter2/4.mdx @@ -32,7 +32,7 @@ NLPのタスクにおいて、一般的に処理されるデータは生文で Jim Henson was a puppeteer (Jim Hensonは人形師でした) ``` -しかしながらモデルが処理できるのは数値のみなので、生文を数値に変換する方法を考える必要があります。トークナイザはまさにこの役割を担っているものであり、変換にはさまざまな方法があります。目的はモデルにとって最も意味のある表現を見つけることです。そして可能な限り、最小な表現を見つけることも目的としています。 +しかしながらモデルが処理できるのは数値のみなので、生文を数値に変換する方法を考える必要があります。トークナイザはまさにこの役割を担っているものであり、変換にはさまざまな方法があります。目的はモデルにとって最も意味のある表現を見つけることです。そして可能な限り、コンパクトな表現を見つけることも目的としています。 ここではトークン化アルゴリズムの例をいくつか見ながら、トークン化に関する疑問を解消していきます。 @@ -40,7 +40,7 @@ Jim Henson was a puppeteer (Jim Hensonは人形師でした) -最初に思い浮かぶトークナイズ方法は、_単語ベース_ のものです。一般に、いくつかのルールを設定するだけで非常に簡単に使用でき、そして多くの場合において適切な結果を得ることができます。例えば以下の画像のように、生のテキストを単語に分割し、それぞれの数値表現を見つけることが目的です。 +最初に思い浮かぶトークナイズ方法は、_単語ベース_ のものです。一般に、いくつかのルールを設定するだけで非常に簡単に使用でき、そして多くの場合において適切な結果を得ることができます。例えば、以下の画像のように生のテキストを単語に分割し、それぞれの数値表現を見つけることが目的です。
An example of word-based tokenization. diff --git a/chapters/ja/chapter2/5.mdx b/chapters/ja/chapter2/5.mdx index 7866e0128..66c7342ae 100644 --- a/chapters/ja/chapter2/5.mdx +++ b/chapters/ja/chapter2/5.mdx @@ -31,7 +31,7 @@ 前のセクションでは、最も単純な使用例である、単一の短い系列(テキスト)に対して推論を行う方法を見てきました。しかし、これについて以下のような疑問をお持ちの方もいるかもしれません。 - 複数の系列をどのように処理するのか? -- *異なる長さ*の複数の系列をどのように処理するのか? +- 長さの異なる複数の系列をどのように処理するのか? - モデルがうまく機能するためには、単語のインデックスだけが入力として必要なのか? - 系列が長すぎてしまうということはあるのか?