diff --git a/chapters/de/_toctree.yml b/chapters/de/_toctree.yml
index 7227717ef..c43192ca8 100644
--- a/chapters/de/_toctree.yml
+++ b/chapters/de/_toctree.yml
@@ -3,6 +3,30 @@
   - local: chapter0/1
     title: Einführung
 
+- title: 1. Transformer-Modelle
+  sections:
+  - local: chapter1/1
+    title: Einführung
+  - local: chapter1/2
+    title: Natural Language Processing
+  - local: chapter1/3
+    title: Transformer-Modelle - wozu sind sie imstande?
+  - local: chapter1/4
+    title: Wie funktionieren Transformer-Modelle?
+  - local: chapter1/5
+    title: Encoder-Modelle
+  - local: chapter1/6
+    title: Decoder-Modelle
+  - local: chapter1/7
+    title: Sequence-to-Sequence-Modelle
+  - local: chapter1/8
+    title: Bias und Einschränkungen
+  - local: chapter1/9
+    title: Zusammenfassung
+  - local: chapter1/10
+    title: Quiz am Ende des Kapitels
+    quiz: 1
+
 - title: 3. Fine-tuning von vortrainierten Modellen
   sections:
   - local: chapter3/1
diff --git a/chapters/de/chapter1/1.mdx b/chapters/de/chapter1/1.mdx
new file mode 100644
index 000000000..14e19601c
--- /dev/null
+++ b/chapters/de/chapter1/1.mdx
@@ -0,0 +1,102 @@
+# Einführung
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+## Willkommen zum 🤗 Kurs!
+
+<Youtube id="00GKzGyWFEs" />
+
+In diesem Kurs lernst du verschiedene Teilbereiche der maschinellen Verarbeitung natürlicher Sprache (engl. Natural Language Processing, NLP) - im Deutschen auch als Maschinelle Sprachverarbeitung oder Computerlinguistik (CL) bezeichnet - unter Verwendung der Bibliotheken des Ökosystems von [Hugging Face](https://huggingface.co/) kennen: die [🤗 Transformers-](https://github.com/huggingface/transformers), die [🤗 Datasets-](https://github.com/huggingface/datasets), die [🤗 Tokenizers-](https://github.com/huggingface/tokenizers) sowie die [🤗 Accelerate-Bibliotheken](https://github.com/huggingface/accelerate) als auch der [Hugging Face Hub](https://huggingface.co/models). Der Kurs ist komplett kostenlos und frei von Werbung.
+
+
+## Was erwartet dich?
+
+Hier ein kurzer Überblick über den Kurs:
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary.svg" alt="Brief overview of the chapters of the course.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/summary-dark.svg" alt="Brief overview of the chapters of the course.">
+</div>
+
+- Die Kapitel 1 bis 4 geben eine Einführung in die wichtigsten Konzepte der 🤗 Transformers-Bibliothek. Am Ende dieses Teils des Kurses wirst du mit der Funktionsweise von Transformer-Modellen vertraut sein und wissen, wie du ein Modell aus dem [Hugging Face Hub](https://huggingface.co/models) verwendest, es auf einem Datensatz feintunst und deine Ergebnisse mit anderen auf dem Hub teilst!
+- In den Kapiteln 5 bis 8 lernst du die Grundlagen der 🤗 Datasets- und 🤗 Tokenizers-Bibliotheken kennen, bevor du in die typischen Problemstellungen des NLP eintauchst. Am Ende dieses Teils wirst du in der Lage sein, die gängisten Problemstellungen im NLP selbstständig zu lösen.
+- Die Kapitel 9 bis 12 gehen über den Bereich des NLP hinaus und zeigen, wie Transformer-Modelle für Aufgaben bei der Verarbeitung gesprochener Sprache (engl. Speech Processing) und im Bereich Computer Vision (im Deutschen ungefähr mit computerbasiertem Sehen zu übersetzen) eingesetzt werden können. Nebenbei lernst du, wie du eigene Versionen deiner Modelle zu Demonstrationszwecken erstellen und sie mit anderen teilen kannst, und wie du sie für Produktionsumgebungen optimierst. Am Ende dieses Teils wirst du in der Lage sein, die 🤗 Transformers-Bibliothek auf (fast) jede Problemstellung, die dir im Bereich des Maschinellen Lernens begegnen, anzuwenden!
+
+Dieser Kurs:
+
+* Erfordert gute Kenntnisse in Python
+* Sollte am besten nach einem Einführungskurs in Deep Learning gemacht werden, wie z. B. [fast.ai's Kurs](https://www.fast.ai/) [Practical Deep Learning for Coders](https://course.fast.ai/) oder eines der von [DeepLearning.AI](https://www.deeplearning.ai/) entwickelten Kursprogramme
+* Setzt keine Vorkenntnisse in [PyTorch](https://pytorch.org/) oder [TensorFlow](https://www.tensorflow.org/) voraus, obwohl es hilfreich ist, wenn du bereits mit ihnen vertraut sein solltest.
+
+Nachdem du diesen Kurs abgeschlossen hast, empfehlen wir dir den [Spezialisierungskurs Natural Language Processing von DeepLearning.AI](https://www.coursera.org/specializations/natural-language-processing?utm_source=deeplearning-ai&utm_medium=institutions&utm_campaign=20211011-nlp-2-hugging_face-page-nlp-refresh), der eine breite Palette traditioneller NLP-Modelle wie Naive Bayes und LSTMs abdeckt, bei denen es sich lohnt, sich mit ihnen vertraut zu machen!
+
+## Wer sind wir?
+
+Über die Autorinnen und Autoren:
+
+**Matthew Carrigan** ist Machine Learning Engineer bei Hugging Face. Er lebt in der irischen Hauptstadt Dublin und hat zuvor als Machine Learning Engineer bei Parse.ly und als Post-Doktorand am Trinity College Dublin gearbeitet. Er glaubt nicht, dass wir eine künstliche allgemeine Intelligenz (engl. Artificial General Intelligence, AGI) durch eine zunehmende Skalierung bestehender Architekturen erreichen werden, hat aber dennoch die Hoffnung, dass Roboter auf dem Weg zur Unsterblichkeit sind.
+
+**Lysandre Debut** ist Machine Learning Engineer bei Hugging Face und arbeitet bereits seit Entstehung an der 🤗 Transformers-Bibliothek mit. Sein Ziel ist es, NLP für alle zugänglich zu machen, indem er Tools entwickelt, die eine sehr einfache API bieten.
+
+**Sylvain Gugger** ist Research Engineer bei Hugging Face und einer der Hauptverantwortlichen für die Pflege der 🤗 Transformers-Bibliothek. Zuvor war er Research Scientist bei fast.ai und hat zusammen mit Jeremy Howard das Buch _[Deep Learning for Coders with fastai and PyTorch](https://learning.oreilly.com/library/view/deep-learning-for/9781492045519/)_ verfasst. Seine Forschung ist darauf ausgerichtet, Deep Learning zugänglicher zu machen. Hierfür entwickelt und verbessert er Techniken, mit denen Modelle auch bei begrenzter Ressourcenausstattung auf schnelle Weise trainiert werden können.
+
+**Merve Noyan** ist Developer Advocate bei Hugging Face und arbeitet daran, Tools zu entwickeln und Inhalte zu erstellen, die Maschinelles Lernen für jeden zugänglich machen.
+
+**Lucile Saulnier** ist Machine Learning Engineer bei Hugging Face und entwickelt und unterstützt die Nutzung von Open-Source-Tools. Außerdem ist sie aktiv an vielen Forschungsprojekten im Bereich des NLP beteiligt, z. B. an kollaborativem Training und BigScience.
+
+**Lewis Tunstall** ist Machine Learning Engineer bei Hugging Face, und konzentriert sich darauf, Open-Source-Tools zu entwickeln und sie der breiten Community zugänglich zu machen. Zudem ist er Mitverfasser des O'Reilly-Buches [Natural Language Processing with Transformers](https://www.oreilly.com/library/view/natural-language-processing/9781098136789/).
+
+**Leandro von Werra** ist Machine Learning Engineer im Open-Source-Team von Hugging Face und ebenfalls einer der Autoren des O'Reilly-Buches [Natural Language Processing with Transformers](https://www.oreilly.com/library/view/natural-language-processing/9781098136789/). Er hat mehrere Jahre praktische Erfahrung darin gesammelt, NLP-Projekte in die Produktion zu bringen, und dabei den gesamten ML-Stack beackert.
+
+## Häufig gestellte Fragen (FAQ)
+
+Hier findest du einige Antworten auf häufig gestellte Fragen:
+
+- **Erhalte ich für die Teilnahme an diesem Kurs ein Zertifikat?
+Derzeit gibt es für diesen Kurs noch kein Zertifikat. Wir arbeiten jedoch an einem Programm zur Erlangung eines Zertifikats für das Hugging-Face-Ökosystem - bleib' auf dem Laufenden!
+
+- **Wie viel Zeit sollte ich für diesen Kurs einplanen?
+Jedes Kapitel dieses Kurses ist so konzipiert, dass es innerhalb einer Woche abgeschlossen werden kann, wenn du circa 6 bis 8 Stunden Arbeit einplanst. Du kannst dir jedoch so viel Zeit nehmen wie nötig.
+
+- **Wo kann ich Fragen stellen, wenn ich welche habe?**
+Wenn du eine Frage zu einem Kursabschnitt hast, klicke einfach auf das sich oben auf der Seite befindende Banner "*Ask a question*" und du wirst automatisch zum entsprechenden Bereich des [Hugging-Face-Forums](https://discuss.huggingface.co/) weitergeleitet:
+
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/forum-button.png" alt="Link to the Hugging Face forums" width="75%">
+
+Wenn du nach dem Kurs noch weiter üben möchtest, steht dir in den Foren eine Liste mit [Projektideen](https://discuss.huggingface.co/c/course/course-event/25) zur Verfügung.
+
+- **Wo finde ich den Code für den Kurs?**
+In jedem Abschnitt kannst du auf das oben auf der Seite befindliche Banner klicken, um den Code entweder in Google Colab oder in Amazon SageMaker Studio Lab auszuführen:
+
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/notebook-buttons.png" alt="Link to the Hugging Face course notebooks" width="75%">
+
+Die Jupyter-Notebooks, die den gesamten Code des Kurses enthalten, befinden sich im [`huggingface/notebooks`-Repo](https://github.com/huggingface/notebooks). Wenn du sie lokal aufsetzen möchtest, schau dir die Anweisungen im [`course`-Repository](https://github.com/huggingface/course#-jupyter-notebooks) auf GitHub an.
+
+
+- **Wie kann ich etwas zum Kurs beitragen?**
+Es gibt mehrere Möglichkeiten, zum Kurs beizutragen! Wenn du einen Tippfehler oder einen Fehler entdeckst, eröffne bitte ein Issue in dem [`course`-Repository](https://github.com/huggingface/course). Wenn du uns dabei unterstützen möchtest, den Kurs in deine Muttersprache zu übersetzen, sieh dir bitte die [Anleitung](https://github.com/huggingface/course#translating-the-course-into-your-language) an.
+
+- **Welche Entscheidungen wurden bei den einzelnen Übersetzungen getroffen?**
+Für jede Übersetzung gibt es ein Glossar und die Datei `TRANSLATING.txt`, in der die gewählten Fachtermini usw. festgehalten sind. Ein Beispiel für die deutsche Fassung findest du [hier](https://github.com/huggingface/course/blob/main/chapters/de/TRANSLATING.txt).
+
+
+- **Kann ich diesen Kurs auch an anderer Stelle verwenden?**
+Ja, natürlich! Der Kurs ist unter der permissiven [Apache-2-Lizenz](https://www.apache.org/licenses/LICENSE-2.0.html) veröffentlicht. Das bedeutet, dass du den Kurs in angemessener Weise erwähnen, einen Verweis zur Lizenz angeben und darauf hinweisen musst, wenn du Änderungen vorgenommen hast. Du kannst dies in jeder angemessenen Weise tun, allerdings nicht in einer Weise, die den Eindruck erweckt, dass der Lizenzgeber dich oder deine Nutzung unterstützt. Wenn du den Kurs zitieren möchtest, verwende bitte den folgenden BibTeX-Eintrag:
+
+```
+@misc{huggingfacecourse,
+  author = {Hugging Face},
+  title = {The Hugging Face Course, 2022},
+  howpublished = "\url{https://huggingface.co/course}",
+  year = {2022},
+  note = "[Online; accessed <today>]"
+}
+```
+
+Bist du bereit, loszulegen? In diesem Kapitel lernst du
+* wie man die Funktion `pipeline()` benutzt, um computerlinguistische Aufgaben wie Textgenerierung und Klassifizierung zu lösen,
+* mehr über die Transformer-Architektur und
+* wie zwischen Encoder-, Decoder- und Encoder-Decoder-basierten Architekturen und -Anwendungsfällen unterschieden werden kann.
diff --git a/chapters/de/chapter1/10.mdx b/chapters/de/chapter1/10.mdx
new file mode 100644
index 000000000..0d6054011
--- /dev/null
+++ b/chapters/de/chapter1/10.mdx
@@ -0,0 +1,260 @@
+<!-- DISABLE-FRONTMATTER-SECTIONS -->
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+
+# Quiz am Ende des Kapitels
+
+In diesem Kapitel hast du viel gelernt! Mach dir keine Sorgen, wenn du noch nicht alle Einzelheiten verstanden hast. In den nächsten Kapiteln wirst du mehr darüber erfahren, wie die Dinge im Einzelnen funktionieren.
+
+Doch zuerst wollen wir noch testen, was du in diesem Kapitel gelernt hast!
+
+
+### 1. Erkunde den Hub und suche nach dem Checkpoint `roberta-large-mnli`. Welche Aufgabe unterstützt er?
+
+
+<Question
+	choices={[
+		{
+			text: "Summarization (Textzusammenfassung)",
+			explain: "Sieh nochmal auf der Seite des Modells<a href=\"https://huggingface.co/roberta-large-mnli\">roberta-large-mnli</a> nach."
+		},
+		{
+			text: "Text Classification (Textklassifizierung)",
+			explain: "Genauer gesagt, wird klassifiziert, ob zwei Sätze hinsichtlich dreier Labels (Widerspruch (engl. Contradiction), Neutral, Konsequenz (engl. Entailment)) logisch miteinander verbunden sind - eine Aufgabe, die auch als <em>Natural Language Inference</em> bezeichnet wird.",
+			correct: true
+		},
+		{
+			text: "Text Generation (Textgenerierung)",
+			explain: "Sieh nochmal auf der Seite des Modells <a href=\"https://huggingface.co/roberta-large-mnli\">roberta-large-mnli</a> nach."
+		}
+	]}
+/>
+
+### 2. Was gibt der folgende Code zurück?
+
+```py
+from transformers import pipeline
+
+ner = pipeline("ner", grouped_entities=True)
+ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")
+```
+
+<Question
+	choices={[
+		{
+			text: "Er gibt die Ergebnisse der Klassifizierung für diesen Satz für die Labels \"positive\" oder \"negative\" zurück.",
+			explain: "Das ist nicht richtig - dafür müsstest du eine <code>sentiment-analysis</code>-Pipeline verwenden."
+		},
+		{
+			text: "Er wird einen generierten Text zurückgeben, der diesen Satz vervollständigt.",
+			explain: "Das ist nicht richtig - dafür müsstest du eine <code>text-generation</code>-Pipeline verwenden.",
+		},
+		{
+			text: "Er gibt Begriffe zurück, die für Personen, Organisationen oder Orte stehen.",
+			explain: "Außerdem werden mit <code>grouped_entities=True</code> die Wörter, die zur selben Entität gehören, gruppiert, wie z. B. \"Hugging Face\".",
+			correct: true
+		}
+	]}
+/>
+
+### 3. Wodurch müsste ... in diesem Codebeispiel ersetzt werden?
+
+```py
+from transformers import pipeline
+
+filler = pipeline("fill-mask", model="bert-base-cased")
+result = filler("...")
+```
+
+<Question
+	choices={[
+		{
+			text: "This &#60;mask> has been waiting for you.",
+			explain: "Das stimmt nicht. Schau dir die <code>bert-base-cased</code>-Übersichtsseite des Modells an und versuche, deinen Fehler zu entdecken."
+		},
+		{
+			text: "This [MASK] has been waiting for you.",
+			explain: "Richtig! Der Mask Token dieses Modells ist [MASK].",
+			correct: true
+		},
+		{
+			text: "This man has been waiting for you.",
+			explain: "Leider falsch. Diese Pipeline füllt maskierte Wörter auf, also braucht sie irgendwo einen Mask Token."
+		}
+	]}
+/>
+
+### 4. Warum wird dieser Code nicht funktionieren?
+
+```py
+from transformers import pipeline
+
+classifier = pipeline("zero-shot-classification")
+result = classifier("This is a course about the Transformers library")
+```
+
+<Question
+	choices={[
+		{
+			text: "Diese Pipeline erfordert, dass Labels angegeben werden, damit der Text klassifiziert werden kann.",
+			explain: "Richtig — der korrekte Code muss <code>candidate_labels=[...]</code> enthalten.",
+			correct: true
+		},
+		{
+			text: "Diese Pipeline erfordert mehrere Sätze, nicht nur einen.",
+			explain: "Das ist falsch - obwohl diese Pipeline, wenn sie korrekt verwendet wird, eine Liste von Sätzen verarbeiten kann (wie alle anderen Pipelines)."
+		},
+		{
+			text: "Die 🤗 Transformers-Bibliothek funktioniert wie immer nicht.",
+			explain: "Zu dieser Antwort erübrigt sich jeder Kommentar!"
+		},
+		{
+			text: "Diese Pipeline erfordert längere Inputs; diese hier sind zu kurz.",
+			explain: "Das ist falsch. Übrigens wird ein sehr langer Text bei der Verarbeitung durch diese Pipeline gestutzt (engl. truncated) bzw. gekürzt."
+		}
+	]}
+/>
+
+### 5. Was bedeutet der Begriff "Transfer Learning"?
+
+<Question
+	choices={[
+		{
+			text: "Übertragen des im Pretraining erlangten Wissens auf ein neues Modell, indem es auf demselben Datensatz trainiert wird.",
+			explain: "Nein, das wären dann zwei Versionen desselben Modells."
+		},
+		{
+			text: "Übertragen des im Pretraining erlangten Wissens auf ein neues Modell durch Initialisierung des zweiten Modells mit der Gewichtung des ersten Modells.",
+			explain: "Richtig: Wenn das zweite Modell für eine neue Aufgabe trainiert wird, *überträgt* (engl. transfer) es das Wissen des ersten Modells.",
+			correct: true
+		},
+		{
+			text: "Übertragen des im Pretraining erlangten Wissens auf ein neues Modell, indem das zweite Modell mit der gleichen Architektur wie das erste Modell aufgebaut wird.",
+			explain: "Die Architektur ist nur die Art und Weise, wie das Modell aufgebaut ist. Es wird in diesem Fall kein Wissen geteilt oder übertragen."
+		}
+	]}
+/>
+
+### 6. Richtig oder falsch? Ein Sprachmodell benötigt im Rahmen des Pretraining in der Regel keine Labels.
+
+
+<Question
+	choices={[
+		{
+			text: "Richtig",
+			explain: "Das Pretraining ist in der Regel <em>selbstüberwacht</em> (engl. self-supervised), d. h. die Labels werden automatisch aus den Inputs erstellt (wie z. B. die Vorhersage des nächsten Wortes oder das Auffüllen einiger maskierter Wörter).",
+			correct: true
+		},
+		{
+			text: "Falsch",
+			explain: "Das ist nicht die richtige Antwort."
+		}
+	]}
+/>
+
+### 7. Wähle den Satz aus, der die Begriffe "Modell", "Architektur" und "Gewichte" bzw. "Gewichtung" am besten beschreibt.
+
+<Question
+	choices={[
+		{
+			text: "Wenn ein Modell ein Gebäude ist, ist seine Architektur der Bauplan und die Gewichte sind die Menschen, die darin leben.",
+			explain: "In Anlehnung an diese Metapher wären die Gewichte die Ziegel (und weitere Materialien), die zum Bau des Gebäudes verwendet werden."
+		},
+		{
+			text: "Eine Architektur ist eine Karte zum Aufbau eines Modells und ihre Gewichte sind die Städte, die auf der Karte dargestellt sind.",
+			explain: "Das Problem bei dieser Metapher ist, dass eine Karte in der Regel nur eine Realität abbildet (es gibt nur eine Stadt in Frankreich namens Paris). Für eine bestimmte Architektur sind jedoch verschiedene Gewichtungen möglich."
+		},
+		{
+			text: "Eine Architektur ist eine Abfolge von mathematischen Funktionen zum Aufbau eines Modells und ihre Gewichte sind die Parameter dieser Funktionen.",
+			explain: "Dieselben mathematischen Funktionen (Architektur) können verwendet werden, um verschiedene Modelle zu erstellen, indem unterschiedliche Parameter (Gewichte) verwendet werden.",
+			correct: true
+		}
+	]}
+/>
+
+
+### 8. Welche dieser Modelle würdest du nutzen, um einen Prompt bzw. Text-Input durch einen generierten Text vervollständigen zu lassen?
+
+<Question
+	choices={[
+		{
+			text: "Ein Encoder-Modell",
+			explain: "Ein Encoder-Modell erzeugt eine Repräsentation für den gesamten Satz. Diese ist für Aufgaben wie die Klassifizierung besser geeignet."
+		},
+		{
+			text: "Ein Decoder-Modell",
+			explain: "Decoder-Modelle eignen sich perfekt für die Generierung von Text auf Basis eines Prompts bzw. Input-Textes.",
+			correct: true
+		},
+		{
+			text: "Ein Sequence-to-Sequence-Modell",
+			explain: "Sequence-to-Sequence-Modelle eignen sich besser für Aufgaben, bei denen du Sätze generieren möchtest, die jeweils einen Bezug zu den Input-Sätzen haben, und nicht auf einen bestimmten Prompt zurückzuführen sind."
+		}
+	]}
+/>
+
+### 9. Welche dieser Modelle würdest du für die Zusammenfassung von Texten verwenden?
+
+<Question
+	choices={[
+		{
+			text: "Ein Encoder-Modell",
+			explain: "Ein Encoder-Modell erzeugt eine Repräsentation für den gesamten Satz. Diese ist für Aufgaben wie die Klassifizierung besser geeignet."
+		},
+		{
+			text: "Ein Decoder-Modell",
+			explain: "Decoder-Modelle sind gut für die Erstellung von Text-Outputs (wie Zusammenfassungen), aber sie haben nicht die Fähigkeit, einen Gesamtkontext wie den kompletten Text für die Zusammenfassung zu nutzen."
+		},
+		{
+			text: "Ein Sequence-to-Sequence-Modell",
+			explain: "Sequence-to-Sequence-Modelle eignen sich perfekt für eine Textzusammenfassungsaufgabe.",
+			correct: true
+		}
+	]}
+/>
+
+### 10. Welche Art von Modellen würdest du verwenden, um Text-Inputs entsprechend bestimmter Labels zu klassifizieren?
+
+<Question
+	choices={[
+		{
+			text: "Ein Encoder-Modell",
+			explain: "Ein Encoder-Modell erzeugt eine Repräsentation für den gesamten Satz. Diese eignet sich perfekt für eine Aufgabe wie die Klassifizierung.",
+			correct: true
+		},
+		{
+			text: "Ein Decoder-Modell",
+			explain: "Decoder-Modelle eignen sich für die Generierung von Output-Texten, aber nicht dafür, ein Label für einen bestimmten Satz zu ermitteln."
+		},
+		{
+			text: "Ein Sequence-to-Sequence-Modell",
+			explain: "Sequence-to-Sequence-Modelle eignen sich besser für Aufgaben, bei denen du Text auf der Grundlage eines vorgegebenen Satzes und nicht eines Labels generieren möchtest.",
+		}
+	]}
+/>
+
+### 11. Welche mögliche Ursache kann eine vom Modell zu beobachtende Voreingenommenheit (Bias) haben?
+
+<Question
+	choices={[
+		{
+			text: "Das Modell ist eine feingetunte Version eines vortrainierten Modells, das den Bias aus dem Pretraining übernommen hat.",
+			explain: "Bei der Anwendung von Transfer Learning wird ein Bias, der dem vortrainierten Modell zugrunde lag, auch beim feingetunten Modell durchsickern.",
+			correct: true
+		},
+		{
+			text: "Die Daten, mit denen das Modell trainiert wurde, spiegeln Voreingenommenheiten wider bzw. sind mit einem Bias versehen.",
+			explain: "Dies ist die offensichtlichste Ursache für eine Voreingenommenheit (Bias), aber nicht die einzige.",
+			correct: true
+		},
+		{
+			text: "Das Maß, auf dessen Grundlage das Modell optimiert wurde, führt zu einem Bias.",
+			explain: "Eine weniger offensichtliche Ursache für Voreingenommenheiten (Bias) ist die Art und Weise, wie das Modell trainiert wird. Bspw. wenn du dein Modell einfach blindlings in Bezug auf das von dir gewählte Maß optimierst.",
+			correct: true
+		}
+	]}
+/>
diff --git a/chapters/de/chapter1/2.mdx b/chapters/de/chapter1/2.mdx
new file mode 100644
index 000000000..9f36f8315
--- /dev/null
+++ b/chapters/de/chapter1/2.mdx
@@ -0,0 +1,26 @@
+# Computerlinguistik
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+Bevor wir uns mit Transformer-Modellen beschäftigen, wollen wir dir einen kurzen Überblick darüber geben, was Computerlinguistik (engl. Natural Language Processing, NLP) ist und welche Gründe es gibt, sich damit zu befassen.
+
+## Was ist Computerlinguistik (CL)?
+
+CL ist ein Bereich der Linguistik und des Maschinellen Lernens (engl. Machine Learning, ML), der sich darauf konzentriert, alle mit menschlicher Sprache zusammenhängenden Dinge zu verstehen. Das Ziel bei CL-Aufgabenstellungen (engl. Tasks) ist es, nicht nur einzelne Wörter zu verstehen, sondern auch den Kontext dieser Wörter zu erfassen.
+
+Im Folgenden findest du eine Liste der häufigsten CL-Aufgabenstellungen mit jeweils einigen Beispielen:
+
+- **Ganze Sätze klassifizieren**: Die mit einer bestimmten Bewertung verbundene Stimmungslage ermitteln, erkennen, ob eine E-Mail Spam ist, bestimmen, ob ein Satz grammatikalisch korrekt ist oder ob zwei Sätze logisch zusammenhängen oder nicht
+- **Jedes einzelne Wort in einem Satz klassifizieren**: Identifizieren der grammatikalischen Bestandteile eines Satzes (Substantiv, Verb, Adjektiv) oder der benannten Entitäten (Person, Ort, Organisation) (engl. Named Entities)
+- **Generieren von Textinhalten**: Einen Prompt durch einen automatisch generierten Text vervollständigen oder Lücken in einem Text auffüllen, in dem einzelne Wörter maskiert sind
+- **Eine Antwort aus einem Text extrahieren**: Auf Basis einer Frage und eines gegebenen Kontexts die Antwort auf die Frage anhand der im Kontext enthaltenen Informationen extrahieren
+- **Generieren eines neuen Satzes auf Basis eines Input-Textes**: Einen Text in eine andere Sprache automatisch übersetzen, Zusammenfassen eines Textes
+
+Die Computerlinguistik ist jedoch nicht nur auf die Verarbeitung geschriebener Texte beschränkt. Sie stellt sich auch komplexen Herausforderungen in den Bereichen der Spracherkennung (engl. Speech Recognition) und Computer Vision, wie z. B. ein Transkript einer Audioaufnahme zu erstellen oder ein Bild zu beschreiben.
+
+## Warum ist Computerlinguistik so schwierig?
+
+Computer verarbeiten Informationen nicht auf die gleiche Weise wie Menschen. Wenn wir zum Beispiel den Satz "Ich bin hungrig" lesen, können wir seine Bedeutung leicht erfassen. Genauso können wir bei zwei Sätzen wie "Ich habe Hunger" und "Ich bin traurig" leicht feststellen, wie ähnlich sie sind. Für ML-Modelle sind solche Aufgaben schwieriger zu lösen. Der Text muss erst so verarbeitet werden, dass das Modell in der Lage ist, daraus zu lernen. Und weil Sprache komplex ist, müssen wir uns genau überlegen, wie diese Verarbeitung erfolgen sollte. Es wurde eine rege Forschung dazu betrieben, wie Texte repräsentiert werden können. Einige dieser Methoden werden wir uns im nächsten Kapitel ansehen.
diff --git a/chapters/de/chapter1/3.mdx b/chapters/de/chapter1/3.mdx
new file mode 100644
index 000000000..c58ba5d64
--- /dev/null
+++ b/chapters/de/chapter1/3.mdx
@@ -0,0 +1,329 @@
+# Transformer-Modelle - wozu sind sie imstande?
+
+<CourseFloatingBanner chapter={1}
+  classNames="absolute z-10 right-0 top-0"
+  notebooks={[
+    {label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/de/chapter1/section3.ipynb"},
+    {label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/de/chapter1/section3.ipynb"},
+]} />
+
+In diesem Abschnitt schauen wir uns an, was Transformer-Modelle zu leisten imstande sind. Zudem verwenden wir unser erstes Werkzeug aus der 🤗 Transformers-Bibliothek: die Funktion `pipeline()`.
+
+<Tip>
+👀 Siehst du rechts oben die Schaltfläche <em>Open in Colab</em>? Klicke darauf, um ein Google Colab Notebook, das alle Codebeispiele dieses Abschnitts enthält, zu öffnen. Diese Schaltfläche ist in jedem Abschnitt, der Codebeispiele enthält, zu finden.
+
+Wenn du die Beispiele lieber lokal ausführen möchtest, empfehlen wir dir, einen Blick auf das Kapitel <a href="/course/chapter0">Einrichtung</a> zu werfen.
+</Tip>
+
+## Transformer-Modelle sind überall anzutreffen!
+
+Transformer-Modelle werden verwendet, um alle Arten von CL-Aufgaben (engl. Tasks) zu lösen, u. a. die im vorherigen Abschnitt genannten. Hier sind einige der Unternehmen und Organisationen, die Hugging-Face- und Transformer-Modelle verwenden und ihre Modelle mit der Community teilen:
+
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/companies.PNG" alt="Companies using Hugging Face" width="100%">
+
+Die [🤗 Transformers-Bibliothek](https://github.com/huggingface/transformers) bietet die Funktionalität, um diese geteilten Modelle zu erstellen und zu nutzen. Der [Model Hub](https://huggingface.co/models) enthält Tausende von vortrainierten Modellen, die jeder herunterladen und nutzen kann. Auch du kannst dort deine eigenen Modelle hochladen!
+
+<Tip>
+⚠️ Der Hugging Face Hub ist nicht auf Transformer-Modelle beschränkt. Jede bzw. jeder kann die von ihr bzw. ihm gewünschten Arten von Modellen oder Datensätzen teilen! <a href="https://huggingface.co/join">Erstelle ein Konto auf huggingface.co</a>, um alle verfügbaren Features nutzen zu können!
+</Tip>
+
+Bevor wir uns ansehen, wie Transformer-Modelle im Einzelnen funktionieren, widmen wir uns ein paar Beispielen, die veranschaulichen, wie sie zur Lösung interessanter CL-Problemstellungen eingesetzt werden können.
+
+## Mit Pipelines arbeiten
+
+<Youtube id="tiZFewofSLM" />
+
+Das grundlegendste Objekt in der 🤗 Transformers-Bibliothek ist die `pipeline()`-Funktion. Sie verbindet ein Modell mit den notwendigen Vor- und Nachverarbeitungsschritten (engl. Preprocessing/Postprocessing) und ermöglicht es uns, direkt einen beliebigen Text eingeben zu können und eine Antwort zu erhalten, die verständlich ist:
+
+```python
+from transformers import pipeline
+
+classifier = pipeline("sentiment-analysis")
+classifier("I've been waiting for a HuggingFace course my whole life.")
+```
+
+```python out
+[{'label': 'POSITIVE', 'score': 0.9598047137260437}]
+```
+
+Wir können sogar mehrere Sätze auf einmal übergeben!
+
+```python
+classifier(
+    ["I've been waiting for a HuggingFace course my whole life.", "I hate this so much!"]
+)
+```
+
+```python out
+[{'label': 'POSITIVE', 'score': 0.9598047137260437},
+ {'label': 'NEGATIVE', 'score': 0.9994558095932007}]
+```
+
+In der Voreinstellung wählt diese Pipeline ein bestimmtes vortrainiertes Modell aus, das bereits für die Sentiment-Analyse in englischer Sprache feingetunt wurde. Wenn du das `classifier`-Objekt erstellst, wird das Modell heruntergeladen und zwischengespeichert. Wenn du den Befehl erneut ausführst, wird stattdessen das zwischengespeicherte Modell verwendet und das Modell muss nicht erneut heruntergeladen werden.
+
+Wenn du einen Text an eine Pipeline übergibst, gibt es drei wichtige Schritte:
+
+1. Der Text wird im Rahmen der Vorverarbeitung in ein Format überführt, das das Modell verstehen kann.
+2. Die vorverarbeiteten Inputs bzw. Eingaben werden an das Modell übergeben.
+3. Die Vorhersagen des Modells werden so nachverarbeitet, sodass du sie nutzen kannst.
+
+
+Einige der derzeit [verfügbaren Pipelines](https://huggingface.co/transformers/main_classes/pipelines.html) sind:
+
+- `feature-extraction` (Vektordarstellung eines Textes erhalten)
+- `fill-mask`
+- `ner` (Named Entity Recognition)
+- `question-answering`
+- `sentiment-analysis`
+- `summarization`
+- `text-generation`
+- `translation`
+- `zero-shot-classification`
+
+Werfen wir doch gleich mal einen Blick auf ein paar von ihnen!
+
+## Zero-Shot-Klassifizierung
+
+Beginnen wir mit der recht anspruchsvollen Aufgabe, Texte zu klassifizieren, die noch nicht gelabelt wurden. Dieses Problem tritt häufig in realen Projekten auf, da das Labeln von Texten in der Regel zeitaufwendig ist und Fachwissen erfordert. Für diesen Anwendungsfall ist die Pipeline `zero-shot-classification` sehr vielversprechend: Mit ihr kannst du festlegen, welche Labels für die Klassifizierung verwendet werden sollen, und musst nicht auf die Labels des vortrainierten Modells zurückgreifen. Wie du bereits gesehen hast, kann das Modell einen Satz - entsprechend der beiden Labels - als positiv oder negativ klassifizieren. Es kann den Text aber auch auf der Grundlage einer beliebigen anderen Auswahl an Labels klassifizieren.
+
+```python
+from transformers import pipeline
+
+classifier = pipeline("zero-shot-classification")
+classifier(
+    "This is a course about the Transformers library",
+    candidate_labels=["education", "politics", "business"],
+)
+```
+
+```python out
+{'sequence': 'This is a course about the Transformers library',
+ 'labels': ['education', 'business', 'politics'],
+ 'scores': [0.8445963859558105, 0.111976258456707, 0.043427448719739914]}
+```
+
+Diese Pipeline heißt _zero-shot_, weil du das Modell nicht erst auf deine Daten feintunen musst, ehe du es verwenden kannst. Sie kann direkt die Wahrscheinlichkeiten für jede beliebige von dir vorgegebene Liste von Labels liefern!
+
+<Tip>
+
+✏️ **Probiere es aus!** Spiel mit deinen eigenen Sequenzen und Labels herum und beobachte, wie sich das Modell verhält.
+
+</Tip>
+
+
+## Textgenerierung
+
+Sehen wir uns nun an, wie du eine Pipeline verwenden kannst, wenn du einen Text generieren möchtest. Der Grundgedanke dabei ist, dass du einen bestimmten Input (einen sog. Prompt) vorgibst und das Modell diesen automatisch vervollständigt, indem es den restlichen Text generiert. Das ist ähnlich wie die Textvorhersagefunktion, die auf vielen Handys zu finden ist. Die Textgenerierung erfolgt nach dem Zufallsprinzip - daher ist es normal, wenn du nicht die gleichen Ergebnisse wie die unten gezeigten erhältst.
+
+```python
+from transformers import pipeline
+
+generator = pipeline("text-generation")
+generator("In this course, we will teach you how to")
+```
+
+```python out
+[{'generated_text': 'In this course, we will teach you how to understand and use '
+                    'data flow and data interchange when handling user data. We '
+                    'will be working with one or more of the most commonly used '
+                    'data flows — data flows of various types, as seen by the '
+                    'HTTP'}]
+```
+
+Mit dem Argument `num_return_sequences` kannst du steuern, wie viele verschiedene Sequenzen erzeugt werden und mit dem Argument `max_length`, wie lang der Ausgabetext insgesamt sein soll.
+
+<Tip>
+
+✏️ **Probiere es aus!** Wähle die Argumente `num_return_sequences` und `max_length` so, dass zwei Sätze mit jeweils 15 Wörtern erzeugt werden.
+
+</Tip>
+
+
+## Verwendung eines beliebigen Modells vom Hub in einer Pipeline
+
+In den vorherigen Beispielen wurde für die jeweilige Aufgabe das voreingestellte Standardmodell verwendet. Du kannst aber auch ein bestimmtes Modell aus dem Hub auswählen und es in einer Pipeline für eine konkrete Aufgabe verwenden - zum Beispiel für die Textgenerierung. Gehe zum [Model Hub](https://huggingface.co/models) und klicke auf der linken Seite unter `Tasks` auf das entsprechende Tag, um dir lediglich die für diese Aufgabenstellung unterstützten Modelle anzeigen zu lassen. Du solltest anschließend auf eine Seite wie [diese](https://huggingface.co/models?pipeline_tag=text-generation) gelangen.
+
+Probieren wir nun das Modell [`distilgpt2`](https://huggingface.co/distilgpt2) aus! So kannst du es mit der gleichen Pipeline wie zuvor laden:
+
+```python
+from transformers import pipeline
+
+generator = pipeline("text-generation", model="distilgpt2")
+generator(
+    "In this course, we will teach you how to",
+    max_length=30,
+    num_return_sequences=2,
+)
+```
+
+```python out
+[{'generated_text': 'In this course, we will teach you how to manipulate the world and '
+                    'move your mental and physical capabilities to your advantage.'},
+ {'generated_text': 'In this course, we will teach you how to become an expert and '
+                    'practice realtime, and with a hands on experience on both real '
+                    'time and real'}]
+```
+
+Du kannst deine Suche nach einem Modell verfeinern, indem du auf eines der `Languages`-Tags klickst und ein Modell auswählst, das Text in einer anderen Sprache generiert. Der Model Hub enthält sogar Checkpoints für mehrsprachige Modelle, die mehrere verschiedene Sprachen unterstützen.
+
+Nachdem du auf ein Modell geklickt und es ausgewählt hast, siehst du, dass es ein Widget gibt, mit dem du es direkt online ausprobieren kannst. Dementsprechend kannst du die Fähigkeiten eines Modells erst schnell testen, bevor du dich dazu entschließt, es herunterzuladen.
+
+<Tip>
+
+✏️ **Probiere es aus!** Verwende die Filter, um ein Textgenerierungsmodell für eine andere Sprache zu finden. Experimentiere ruhig ein wenig mit dem Widget und verwende das Modell in einer Pipeline!
+
+</Tip>
+
+### Die Inference API
+
+Alle Modelle können direkt über deinen Browser getestet werden, indem du die Inference API verwendest, die auf der [Webseite von Hugging Face](https://huggingface.co/) verfügbar ist. Auf dieser Seite kannst du direkt mit dem Modell experimentieren, indem du einen eigenen Text eingibst und beobachtest, wie das Modell die Input-Daten verarbeitet.
+
+Die Inference API, die dem Widget zugrunde liegt, ist auch als kostenpflichtiges Produkt erhältlich, was recht praktisch ist, wenn du sie für deine Workflows benötigst. Weitere Informationen findest du auf der [Preisseite](https://huggingface.co/pricing).
+
+## Mask Filling
+
+Die nächste Pipeline, die du ausprobieren wirst, ist `fill-mask`. Bei dieser Aufgabe geht es darum, Lücken in einem vorgegebenen Text zu füllen:
+
+```python
+from transformers import pipeline
+
+unmasker = pipeline("fill-mask")
+unmasker("This course will teach you all about <mask> models.", top_k=2)
+```
+
+```python out
+[{'sequence': 'This course will teach you all about mathematical models.',
+  'score': 0.19619831442832947,
+  'token': 30412,
+  'token_str': ' mathematical'},
+ {'sequence': 'This course will teach you all about computational models.',
+  'score': 0.04052725434303284,
+  'token': 38163,
+  'token_str': ' computational'}]
+```
+
+Mit dem Argument `top_k` kannst du bestimmen, wie viele Möglichkeiten dir ausgegeben werden sollen. Beachte, dass das Modell hier das spezielle Wort `<mask>` auffüllt, das oft als *Mask-Token* bezeichnet wird. Andere Modelle, die dazu dienen, Maskierungen aufzufüllen, können andere Mask Tokens haben. Deshalb ist es immer gut, erst das verwendete Mask Token zu ermitteln, wenn du andere Modelle nutzen möchtest. Eine Möglichkeit, zu überprüfen, welches Mask Token verwendet wird, ist das Widget.
+
+<Tip>
+
+✏️ **Probiere es aus!** Suche im Hub nach dem Modell `bert-base-cased` und finde sein Mask Token im Widget, das auf der Inference API basiert, heraus. Was sagt dieses Modell für den oben in der Pipeline verwendeten Satz vorher?
+
+</Tip>
+
+## Named Entity Recognition
+
+Bei der Eigennamenerkennung (engl. Named Entity Recognition, NER) handelt es sich um eine Aufgabenstellung, bei der das Modell herausfinden muss, welche Teile des Input-Textes Entitäten wie Personen, Orte oder Organisationen darstellen. Nehmen wir uns ein konkretes Beispiel zur Hand:
+
+```python
+from transformers import pipeline
+
+ner = pipeline("ner", grouped_entities=True)
+ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")
+```
+
+```python out
+[{'entity_group': 'PER', 'score': 0.99816, 'word': 'Sylvain', 'start': 11, 'end': 18}, 
+ {'entity_group': 'ORG', 'score': 0.97960, 'word': 'Hugging Face', 'start': 33, 'end': 45}, 
+ {'entity_group': 'LOC', 'score': 0.99321, 'word': 'Brooklyn', 'start': 49, 'end': 57}
+]
+```
+
+Hier hat das Modell richtig erkannt, dass Sylvain eine Person (PER), Hugging Face eine Organisation (ORG) und Brooklyn ein Ort (LOC) ist.
+
+In der Funktion zur Erstellung der Pipeline übergeben wir die Option `grouped_entities=True`, um die Pipeline anzuweisen, die Teile des Satzes, die der gleichen Entität entsprechen, zu gruppieren: Hier hat das Modell "Hugging" und "Face" richtigerweise als eine einzelne Organisation gruppiert, auch wenn der Name aus mehreren Wörtern besteht. Wie wir im nächsten Kapitel sehen werden, werden bei der Vorverarbeitung (engl. Preprocessing) sogar einige Wörter in kleinere Teile zerlegt. Zum Beispiel wird `Sylvain` in vier Teile zerlegt: `S`, `##yl`, `##va` und `##in`. Im Nachverarbeitungsschritt (engl. Post-Processing) hat die Pipeline diese Teile erfolgreich neu gruppiert.
+
+<Tip>
+
+✏️ **Probiere es aus!** Suche im Model Hub nach einem Modell, das in der Lage ist, Part-of-Speech-Tagging (in der Regel als POS abgekürzt) im Englischen durchzuführen (Anm.: d. h. Wortarten zuzuordnen). Was sagt dieses Modell für den Satz im obigen Beispiel vorher?
+
+</Tip>
+
+## Frage-Antwort-Systeme (Question Answering)
+
+Die Pipeline `question-answering` beantwortet Fragen anhand von Informationen, die aus einem bestimmten Kontext stammen:
+
+```python
+from transformers import pipeline
+
+question_answerer = pipeline("question-answering")
+question_answerer(
+    question="Where do I work?",
+    context="My name is Sylvain and I work at Hugging Face in Brooklyn",
+)
+```
+
+```python out
+{'score': 0.6385916471481323, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}
+```
+
+Beachte, dass diese Pipeline Informationen aus dem gegebenen Kontext extrahiert; sie generiert nicht die Antwort.
+
+## Automatische Textzusammenfassung
+
+Bei der automatischen Textzusammenfassung (engl. Summarization) geht es darum, einen Text zu kürzen und dabei alle (oder die meisten) wichtigen Aspekte, auf die im Text verwiesen wird, beizubehalten. Hier ist ein Beispiel:
+
+```python
+from transformers import pipeline
+
+summarizer = pipeline("summarization")
+summarizer(
+    """
+    America has changed dramatically during recent years. Not only has the number of 
+    graduates in traditional engineering disciplines such as mechanical, civil, 
+    electrical, chemical, and aeronautical engineering declined, but in most of 
+    the premier American universities engineering curricula now concentrate on 
+    and encourage largely the study of engineering science. As a result, there 
+    are declining offerings in engineering subjects dealing with infrastructure, 
+    the environment, and related issues, and greater concentration on high 
+    technology subjects, largely supporting increasingly complex scientific 
+    developments. While the latter is important, it should not be at the expense 
+    of more traditional engineering.
+
+    Rapidly developing economies such as China and India, as well as other 
+    industrial countries in Europe and Asia, continue to encourage and advance 
+    the teaching of engineering. Both China and India, respectively, graduate 
+    six and eight times as many traditional engineers as does the United States. 
+    Other industrial countries at minimum maintain their output, while America 
+    suffers an increasingly serious decline in the number of engineering graduates 
+    and a lack of well-educated engineers.
+"""
+)
+```
+
+```python out
+[{'summary_text': ' America has changed dramatically during recent years . The '
+                  'number of engineering graduates in the U.S. has declined in '
+                  'traditional engineering disciplines such as mechanical, civil '
+                  ', electrical, chemical, and aeronautical engineering . Rapidly '
+                  'developing economies such as China and India, as well as other '
+                  'industrial countries in Europe and Asia, continue to encourage '
+                  'and advance engineering .'}]
+```
+
+Wie bei der Textgenerierung kannst du eine maximale (`max_length`) oder minimale (`min_length`) Länge für das Ergebnis angeben.
+
+
+## Maschinelle Übersetzung
+
+Für die Maschinelle Übersetzung (engl. Translation) kannst du ein vorgegebenes Standardmodell verwenden, indem du ein Sprachpaar im Aufgabennamen angibst (z. B. `"translation_en_to_fr"`). Am einfachsten ist es jedoch, das Modell, das du verwenden möchtest, im [Model Hub](https://huggingface.co/models) auszuwählen. Im folgenden Beispiel probieren wir die Übersetzung vom Französischen ins Englische aus:
+
+```python
+from transformers import pipeline
+
+translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
+translator("Ce cours est produit par Hugging Face.")
+```
+
+```python out
+[{'translation_text': 'This course is produced by Hugging Face.'}]
+```
+
+Wie bei der Textgenerierung und -zusammenfassung kannst du auch hier `max_length` oder `min_length` als Argumente für das Ergebnis angeben.
+
+<Tip>
+
+✏️ **Probiere es aus!** Suche nach Übersetzungsmodellen in anderen Sprachen und versuche, den vorangegangenen Satz in mehrere verschiedene Sprachen zu übersetzen.
+
+</Tip>
+
+Die bisher gezeigten Pipelines dienen hauptsächlich zu Demonstrationszwecken. Sie wurden für bestimmte Aufgabenstellungen programmiert und sind nicht für Abwandlungen geeignet. Im nächsten Kapitel erfährst du, was sich hinter einer `pipeline()`-Funktion verbirgt und wie du ihr Verhalten anpassen kannst.
diff --git a/chapters/de/chapter1/4.mdx b/chapters/de/chapter1/4.mdx
new file mode 100644
index 000000000..c9641aa31
--- /dev/null
+++ b/chapters/de/chapter1/4.mdx
@@ -0,0 +1,176 @@
+# Wie funktionieren Transformer-Modelle?
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+In diesem Abschnitt werfen wir einen Blick auf die Architektur von Transformer-Modellen.
+
+## Kurz zur Entwicklungsgeschichte der Transformer-Modelle
+
+Hier sind einige wichtige Meilensteine in der (kurzen) Geschichte der Transformer-Modelle:
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono.svg" alt="A brief chronology of Transformers models.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_chrono-dark.svg" alt="A brief chronology of Transformers models.">
+</div>
+
+Die [Transformer-Architektur](https://arxiv.org/abs/1706.03762) wurde erstmals im Juni 2017 veröffentlicht. Der Schwerpunkt der ursprünglichen Forschung lag auf Übersetzungsaufgaben. In der Folge wurden mehrere einflussreiche Modelle veröffentlicht, darunter:
+
+- **Juni 2018**: [GPT](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf), das erste vortrainierte Transformer-Modell, wurde zum Feintuning für verschiedene CL-Aufgaben eingesetzt und erzielte Ergebnisse, die dem neuesten Stand der Technik entsprachen.
+
+- **Oktober 2018**: [BERT](https://arxiv.org/abs/1810.04805), ein weiteres großes vortrainiertes Modell, das dazu dient, bessere Zusammenfassungen von Sätzen zu erstellen (mehr dazu im nächsten Kapitel!)
+
+- **Februar 2019**: [GPT-2](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf), eine verbesserte (und größere) Version von GPT, die aus ethischen Erwägungen nicht sofort veröffentlicht wurde
+
+- **Oktober 2019**: [DistilBERT](https://arxiv.org/abs/1910.01108), eine abgespeckte Version von BERT, die 60 % schneller ist, 40 % weniger Speicherplatz benötigt und dennoch 97 % der Leistung von BERT erreicht
+
+- **Oktober 2019**: [BART](https://arxiv.org/abs/1910.13461) und [T5](https://arxiv.org/abs/1910.10683), zwei große vortrainierte Modelle, die dieselbe Architektur wie das ursprüngliche Transformer-Modell verwenden (die ersten, die dies getan haben)
+
+- **Mai 2020**, [GPT-3](https://arxiv.org/abs/2005.14165), eine noch größere Version von GPT-2, die in der Lage ist, bei einer Vielzahl von Aufgabenstellungen gute Leistungen zu erbringen, ohne dass ein Feintuning erforderlich ist (auch _Zero-Shot Learning_ genannt)
+
+Diese Auflistung ist bei weitem nicht vollständig und soll nur einige der verschiedenen Arten von Transformer-Modellen aufzeigen. Sie lassen sich grob in drei Kategorien einteilen:
+
+- GPT-ähnliche (auch _autoregressive_-Transformer-Modelle genannt)
+- BERT-ähnliche (auch _Auto-Encoding_-Transformer-Modelle genannt)
+- BART-/T5-ähnliche (auch _Sequence-to-Sequence_-Transformer-Modelle genannt)
+
+Wir werden uns mit diesen unterschiedlichen Modellfamilien später noch eingehender beschäftigen.
+
+## Transformer-Modelle sind Sprachmodelle
+
+Alle oben genannten Transformer-Modelle (GPT, BERT, BART, T5, etc.) wurden als *Sprachmodelle* (engl. Language Models) trainiert. Das bedeutet, dass sie mit großen Mengen an Rohtext auf selbstüberwachte (engl. self-supervised) Weise trainiert wurden. Selbstüberwachtes Lernen ist eine Form des Trainings, bei der die vorherzusagende Variable, die sog. Zielvariable (engl. Target), automatisch aus den Inputs des Modells berechnet wird. Das bedeutet, dass kein menschliches Zutun nötig ist, um die Daten zu labeln!
+
+Diese Art von Modell entwickelt ein statistisches Verständnis der Sprache, auf die es trainiert wurde, ist aber für spezifische praktische Aufgaben nicht sehr nützlich. Aus diesem Grund durchläuft das allgemeine, vortrainierte Modell ein Vorgang namens *Transfer Learning*. Während dieses Vorgangs wird das Modell unter Überwachung - d. h. mit Hilfe von durch Menschen bereitgestellte Labels - für eine bestimmte Aufgabe feingetunt.
+
+Ein Beispiel für eine Aufgabe ist die Vorhersage des nächsten Wortes in einem Satz, nachdem man die *n* vorherigen Wörter gelesen hat. Dies nennt sich *kausale Sprachmodellierung* (engl. Causal Language Modeling), da der Output von den vergangenen und aktuellen Inputs abhängt, aber nicht von den zukünftigen.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/causal_modeling.svg" alt="Example of causal language modeling in which the next word from a sentence is predicted.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/causal_modeling-dark.svg" alt="Example of causal language modeling in which the next word from a sentence is predicted.">
+</div>
+
+Ein weiteres Beispiel ist die *maskierte Sprachmodellierung* (engl. Masked Language Modeling), bei der das Modell ein Wort im Satz, das maskiert ist, vorhersagt.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling.svg" alt="Example of masked language modeling in which a masked word from a sentence is predicted.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/masked_modeling-dark.svg" alt="Example of masked language modeling in which a masked word from a sentence is predicted.">
+</div>
+
+## Transformer-Modelle sind groß
+
+Abgesehen von einigen wenigen Ausreißern (wie DistilBERT) besteht die allgemeine Strategie, um eine bessere Leistung zu erzielen, darin, die Modelle zu vergrößern und die Menge an Daten zu erhöhen, auf denen sie vortrainiert werden.
+
+<div class="flex justify-center">
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/model_parameters.png" alt="Number of parameters of recent Transformers models" width="90%">
+</div>
+
+Leider erfordert das Training eines Modells, insbesondere eines großen, eine große Menge an Daten. Das ist sehr kostspielig in Bezug auf Zeit und Rechenleistung. Es hat sogar Auswirkungen auf die Umwelt, wie in der folgenden Grafik zu sehen ist.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint.svg" alt="The carbon footprint of a large language model.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/carbon_footprint-dark.svg" alt="The carbon footprint of a large language model.">
+</div>
+
+<Youtube id="ftWlj4FBHTg"/>
+
+Hier ist ein Projekt zu sehen, bei dem ein Team gezielt versucht, die Umweltauswirkungen des Pretrainings (sehr großer) Modelle zu reduzieren. Wenn man die vielen Versuche berücksichtigt, die dazu nötig sind, die besten Hyperparameter zu finden, wären die zu bemessenden ökologischen Konsequenzen noch größer.
+
+Stell dir vor, dass jedes Mal, wenn ein Forschungsteam, eine Bildungseinrichtung oder ein Unternehmen ein Modell trainieren möchte, dies von Grund auf tun müsste. Das würde zu enormen, unnötigen globalen Kosten führen!
+
+Deshalb ist die gemeinsame Nutzung von Sprachmodellen von größter Bedeutung: trainierte Gewichtungen gemeinsam zu nutzen und auf bereits trainierten Gewichtungen aufzubauen, reduziert die gesamten Rechenkosten und den CO2-Fußabdruck der Community.
+
+
+## Transfer Learning
+
+<Youtube id="BqqfQnyjmgg" />
+
+Beim *Pretraining* wird ein Modell von Grund auf neu trainiert: Die Gewichte werden nach dem Zufallsprinzip initialisiert und das Training beginnt ohne jegliches Vorwissen.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining.svg" alt="The pretraining of a language model is costly in both time and money.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/pretraining-dark.svg" alt="The pretraining of a language model is costly in both time and money.">
+</div>
+
+Dieses Pretraining wird normalerweise mit sehr großen Datenmengen durchgeführt. Daher wird ein sehr großer Korpus an Daten benötigt und das Training kann mehrere Wochen in Anspruch nehmen.
+
+*Feintuning* ist hingegen das Training, das **nach** dem Pretraining eines Modells durchgeführt wird. Für das Feintuning nimmst du zunächst ein vortrainiertes Sprachmodell und trainierst es dann mit einem aufgabenspezifischen Datensatz nach. Moment - warum trainierst du das Modell nicht gleich für die endgültige Aufgabe? Dafür gibt es mehrere Gründe:
+
+* Das vortrainierte Modell wurde bereits auf einem Datensatz trainiert, der einige Ähnlichkeiten mit dem Datensatz, der für das Feintuning verwendet wird, aufweist. Beim Feintuning kann also von dem Wissen profitiert werden, das das ursprüngliche Modell während des Pretrainings erlangt hat (bei CL-Problemstellungen verfügt das vortrainierte Modell zum Beispiel über eine Art statistisches Verständnis der Sprache, die du für deine Aufgabe verwendest).
+* Da das vortrainierte Modell bereits auf vielen Daten trainiert wurde, sind zum Feintuning bedeutend weniger Daten erforderlich, um brauchbare Ergebnisse erzielen zu können.
+* Aus demselben Grund sind der Zeitaufwand und die Ressourcen, die für gute Ergebnisse benötigt werden, bedeutend geringer.
+
+Man könnte zum Beispiel ein auf Englisch trainiertes Modell nutzen und es dann auf einem arXiv-Korpus feintunen, um ein auf wissenschaftliche Sprache ausgerichtetes Modell zu erstellen. Für das Feintuning wird nur eine begrenzte Menge an Daten benötigt: Das Wissen, das das vortrainierte Modell erworben hat, wird "übertragen" (engl. transferred), daher der Begriff *Transfer Learning*.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning.svg" alt="The fine-tuning of a language model is cheaper than pretraining in both time and money.">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/finetuning-dark.svg" alt="The fine-tuning of a language model is cheaper than pretraining in both time and money.">
+</div>
+
+Das Feintuning eines Modells ist daher mit geringeren Zeit-, Daten-, Umwelt- und finanziellen Kosten verbunden. Es ist auch schneller und einfacher, verschiedene Modelle für das Feintuning auszuprobieren, da das Training mit geringeren Einschränkungen einhergeht als ein vollständiges Pretraining.
+
+Dieser Ansatz führt auch zu besseren Ergebnissen als ein Training von Grund auf (es sei denn, du hast viele Daten). Deshalb solltest du immer versuchen, ein vortrainiertes Modell zu nutzen - und zwar ein Modell, das so nah wie möglich an deiner Aufgabenstellung ist - und es für das Feintuning verwenden.
+
+## Grundlegende Architektur
+
+In diesem Abschnitt gehen wir auf die grundlegende Architektur des Transformer-Modells ein. Mach dir keine Sorgen, wenn du einige der Konzepte nicht verstehst. Im weiteren Verlauf folgen noch ausführliche Abschnitte zu den einzelnen Komponenten.
+
+<Youtube id="H39Z_720T5s" />
+
+## Einführung
+
+Das Modell besteht hauptsächlich aus zwei Blöcken:
+
+* **Encoder (links)**: Der Encoder, auch Kodierer genannt, empfängt einen Input und erstellt eine numerische Darstellung bzw. Repräsentation des Inputs (seiner Features, im Deutschen auch als Merkmale bezeichnet). Das bedeutet, dass das Modell darauf optimiert ist, ein Verständnis vom Input zu erlangen.
+* **Decoder (rechts)**: Der Decoder, auch bekannt als Dekodierer, verwendet die Repräsentation des Encoders (Features) zusammen mit anderen Inputs, um eine Zielsequenz zu generieren. Das bedeutet, dass das Modell darauf optimiert ist, einen Output zu generieren.
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks.svg" alt="Architecture of a Transformers models">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers_blocks-dark.svg" alt="Architecture of a Transformers models">
+</div>
+
+Jede dieser Komponenten kann je nach Aufgabe unabhängig voneinander verwendet werden:
+
+* **Rein Encoder-basierte Modelle** ("Encoder-only Models"): Gut für Aufgaben, die ein Verständnis des Inputs erfordern, wie z. B. bei der Klassifizierung von Sätzen und der Eigennamenerkennung (NER).
+* **Rein Decoder-basierte Modelle** ("Decoder-only Models"): Gut geeignet für generative Aufgaben wie die Textgenerierung.
+* **Encoder-Decoder-basierte Modelle** bzw. **Sequence-to-Sequence-Modelle**: Gut für generative Aufgaben, die einen Input erfordern, wie z. B. Übersetzungen oder Zusammenfassungen.
+
+Wir werden diese Architekturen in späteren Abschnitten noch gesondert behandeln.
+
+## Attention-Layer
+
+Ein wesentliches Merkmal der Transformer-Modelle ist, dass sie mit speziellen Layern (im Deutschen auch als Schichten bezeichnet), den *Attention-Layern*, aufgebaut sind. Der Titel des Forschungsbeitrags, in dem die Transformer-Architektur vorgestellt wurde, lautete sogar ["Attention Is All You Need"](https://arxiv.org/abs/1706.03762)! Wir werden uns später im Kurs mit den Details von Attention-Layern befassen. Für den Moment musst du nur wissen, dass dieser Layer dem Modell sagt, dass es bei der Repräsentation eines jeden Worts in einem Satz, den du ihm übergeben hast, bestimmten Wörtern besondere Aufmerksamkeit schenken (und die anderen mehr oder weniger ignorieren) soll.
+
+Angenommen, du sollst einen Text aus dem Englischen ins Französische übersetzen. Bei dem Input "You like this course" muss ein Übersetzungsmodell auch das angrenzende Wort "You" berücksichtigen, um die richtige Übersetzung für das Wort "like" zu erhalten, denn im Französischen wird das Verb "like" je nach Subjekt unterschiedlich konjugiert. Der Rest des Satzes ist jedoch für die Übersetzung dieses Wortes nicht hilfreich. Genauso muss das Modell bei der Übersetzung von "this" auf das Wort "course" achten, denn "this" wird unterschiedlich übersetzt, je nachdem, ob das zugehörige Substantiv männlich oder weiblich ist. Auch hier spielen die anderen Wörter im Satz für die Übersetzung von "this" keine Rolle. Bei komplexeren Sätzen (und komplexeren Grammatikregeln) muss das Modell besonders auf Wörter achten, die weiter entfernt im Satz vorkommen, um jedes Wort richtig zu übersetzen.
+
+Das gleiche Konzept gilt für jede Aufgabenstellung, die mit natürlicher Sprache zu tun hat: Ein Wort an sich hat eine Bedeutung, aber diese Bedeutung hängt stark vom Kontext ab, der sich durch ein anderes Wort (oder Wörter) vor oder nach dem untersuchten Wort ergibt.
+
+Nachdem du nun eine Vorstellung davon hast, worum es bei Attention-Layern geht, nehmen wir die Transformer-Architektur genauer unter die Lupe.
+
+## Die ursprüngliche Architektur
+
+Die Transformer-Architektur wurde ursprünglich für die maschinelle Übersetzung entwickelt. Beim Training erhält der Encoder Inputs (Sätze) in einer bestimmten Sprache, während der Decoder die gleichen Sätze in der gewünschten Zielsprache erhält. Im Encoder können die Attention-Layer alle Wörter eines Satzes verwenden (denn wie wir gerade gesehen haben, kann die Übersetzung eines bestimmten Wortes sowohl von dem abhängen, was nach, als auch von dem, was vor dem Wort im Satz steht). Der Decoder arbeitet hingegen sequentiell und kann nur die Wörter im Satz berücksichtigen, die er bereits übersetzt hat (also nur die Wörter vor dem Wort, das gerade generiert wird). Wenn wir zum Beispiel die ersten drei Wörter der übersetzten Zielsequenz vorhergesagt haben, geben wir sie an den Decoder weiter, der dann alle Inputs des Encoders verwendet, um das vierte Wort vorherzusagen.
+
+Um das Training zu beschleunigen (insofern das Modell Zugriff auf die Zielsätze hat), wird der Decoder mit dem gesamten (vorherzusagenden) Zielsatz gefüttert, aber er darf keine nachfolgenden Wörter verwenden (wenn er Zugriff zum Wort an Position 2 hätte, während er versucht, das Wort an Position 2 vorherzusagen, wäre die Aufgabe nicht sonderlich schwer!). Wenn er zum Beispiel versucht, das vierte Wort vorherzusagen, hat der Attention-Layer nur Zugriff zu den Wörtern an den Positionen 1 bis 3.
+
+Die ursprüngliche Transformer-Architektur sah wie folgt aus - mit dem Encoder auf der linken und dem Decoder auf der rechten Seite:
+
+<div class="flex justify-center">
+<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers.svg" alt="Architecture of a Transformers models">
+<img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/transformers-dark.svg" alt="Architecture of a Transformers models">
+</div>
+
+Beachte, dass die Attention des ersten Attention-Layers in einem Decoder-Block alle (vorangegangenen) Inputs, die der Decoder erhalten hat, berücksichtigt, während der zweite Attention-Layer den Output des Encoders verwendet. Im Rahmen der Vorhersage des aktuellen Wortes kann er also auf den gesamten Input-Satz zugreifen. Das ist vor allem deshalb nützlich, da es in den verschiedenen Sprachen unterschiedliche grammatikalische Regeln geben kann, wodurch die Wörter in einer anderen Reihenfolge aneinandergereiht werden. Ebenso könnte ein erst später im Satz enthaltener Zusammenhang dabei hilfreich sein, die beste Übersetzung eines bestimmten Wortes zu bestimmen.
+
+Die *Attention-Mask* kann auch im Encoder bzw. Decoder verwendet werden, um zu verhindern, dass das Modell bestimmte Wörter beachtet - zum Beispiel das spezielle Füllwort (engl. Padding Word), das verwendet wird, um alle Inputs auf die gleiche Länge zu bringen, wenn die Sätze zu Batches zusammengeführt werden.
+
+##  Architekturen vs. Checkpoints
+
+Wenn wir uns in diesem Kurs mit Transformer-Modellen beschäftigen, wirst du auf *Architekturen*, *Checkpoints* und auch auf *Modelle* stoßen. Diese Begriffe haben alle eine etwas unterschiedliche Bedeutung:
+
+* **Architektur**: Dies ist das Skelett des Modells - die Definition jedes Layers und jeder Operation, die innerhalb des Modells stattfindet.
+* **Checkpoints**: Dies ist die Gewichtung, die für eine bestimmte Architektur geladen wird.
+* **Modell**: Dies ist ein Oberbegriff, der nicht so präzise ist wie "Architektur" oder "Checkpoint": Er kann beides bedeuten. In diesem Kurs wird jeweils explizit spezifiziert, ob es sich um eine *Architektur* oder um einen *Checkpoint* handelt, um Zweideutigkeiten zu vermeiden.
+
+BERT ist zum Beispiel eine Architektur, während `bert-base-cased` - ein Satz von Gewichten, der vom Google-Team für die erste Version von BERT trainiert wurde - ein Checkpoint ist. Man kann aber auch "das BERT-Modell" oder "das `bert-base-cased`-Modell" sagen.
diff --git a/chapters/de/chapter1/5.mdx b/chapters/de/chapter1/5.mdx
new file mode 100644
index 000000000..502ab5d89
--- /dev/null
+++ b/chapters/de/chapter1/5.mdx
@@ -0,0 +1,22 @@
+# Encoder-Modelle
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+<Youtube id="MUqNwgPjJvQ" />
+
+Encoder-Modelle verwenden nur den Encoder eines Transformer-Modells. Die Attention-Layer können zu jeder Zeit auf alle Wörter des Ausgangssatzes zugreifen. Diese Modelle werden häufig als Modelle mit "bidirektionaler" (engl. bi-directional) Attention bezeichnet und oft *Auto-Encoding-Modelle* genannt.
+
+Beim Pretraining dieser Modelle geht es in der Regel darum, einen bestimmten Satz auf irgendeine Weise zu verfälschen (z. B. indem zufällig Wörter darin maskiert werden) und das Modell dann damit zu betrauen, den ursprünglichen Satz zu finden bzw. zu rekonstruieren.
+
+Rein Encoder-basierte Modelle eignen sich am besten für Aufgaben, die ein Verständnis des gesamten Satzes erfordern, wie z. B. die Klassifizierung von Sätzen, die Eigennamenerkennung (bzw. allgemeiner die Klassifikation von Wörtern) und extraktive Frage-Antwort-Systeme.
+
+Zu dieser Modellfamilie gehören unter anderem:
+
+- [ALBERT](https://huggingface.co/transformers/model_doc/albert.html)
+- [BERT](https://huggingface.co/transformers/model_doc/bert.html)
+- [DistilBERT](https://huggingface.co/transformers/model_doc/distilbert.html)
+- [ELECTRA](https://huggingface.co/transformers/model_doc/electra.html)
+- [RoBERTa](https://huggingface.co/transformers/model_doc/roberta.html)
diff --git a/chapters/de/chapter1/6.mdx b/chapters/de/chapter1/6.mdx
new file mode 100644
index 000000000..c05ac8eb2
--- /dev/null
+++ b/chapters/de/chapter1/6.mdx
@@ -0,0 +1,21 @@
+# Decoder-Modelle
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+<Youtube id="d_ixlCubqQw" />
+
+Decoder-Modelle verwenden nur den Decoder eines Transformer-Modells. Die Attention-Layer können bei jedem Schritt hinsichtlich eines bestimmten Wortes nur auf die Wörter zugreifen, die vor diesem Wort im Satz stehen. Diese Modelle werden oft als *autoregressive Modelle* bezeichnet.
+
+Beim Pretraining von Decoder-Modellen geht es in der Regel um die Vorhersage des nächsten Wortes im Satz.
+
+Diese Modelle sind am besten für Aufgaben geeignet, bei denen es um die Generierung von Texten geht.
+
+Zu dieser Modellfamilie gehören unter anderem:
+
+- [CTRL](https://huggingface.co/transformers/model_doc/ctrl.html)
+- [GPT](https://huggingface.co/transformers/model_doc/gpt.html)
+- [GPT-2](https://huggingface.co/transformers/model_doc/gpt2.html)
+- [Transformer XL](https://huggingface.co/transformers/model_doc/transformerxl.html)
diff --git a/chapters/de/chapter1/7.mdx b/chapters/de/chapter1/7.mdx
new file mode 100644
index 000000000..0ce8561cf
--- /dev/null
+++ b/chapters/de/chapter1/7.mdx
@@ -0,0 +1,21 @@
+# Sequence-to-Sequence-Modelle
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+<Youtube id="0_4KEb08xrE" />
+
+Encoder-Decoder-Modelle (auch *Sequence-to-Sequence-Modelle* genannt) verwenden beide Teile der Transformer-Architektur. Die Attention-Layer des Encoders können in jedem Schritt auf alle Wörter des Ausgangssatzes zugreifen, während die Attention-Layer des Decoders nur auf die Wörter zugreifen können, die vor einem bestimmten Wort des Inputs stehen.
+
+Das Pretraining dieser Modelle kann wie das Pretraining von rein Encoder- oder Decoder-basierten Modellen erfolgen, ist aber in der Regel etwas komplexer. Beim Pretraining von [T5](https://huggingface.co/t5-base) werden zum Beispiel zufällige Textabschnitte (die mehrere Wörter enthalten können) durch ein einzelnes spezielles Maskierungswort ersetzt, und das Ziel (engl. Pretraining Objective) besteht dann darin, den Text vorherzusagen, der durch dieses Maskierungswort ersetzt bzw. verdeckt wurde.
+
+Sequence-to-Sequence-Modelle eignen sich am besten für Aufgaben, bei denen es darum geht, neue Sätze in Abhängigkeit von einem bestimmten Input zu generieren, z. B. bei der Zusammenfassung, Übersetzung oder generativen Frage-Antwort-Systemen.
+
+Vertreter dieser Modellfamilie sind u. a.:
+
+- [BART](https://huggingface.co/transformers/model_doc/bart.html)
+- [mBART](https://huggingface.co/transformers/model_doc/mbart.html)
+- [Marian](https://huggingface.co/transformers/model_doc/marian.html)
+- [T5](https://huggingface.co/transformers/model_doc/t5.html)
diff --git a/chapters/de/chapter1/8.mdx b/chapters/de/chapter1/8.mdx
new file mode 100644
index 000000000..5e15e56e9
--- /dev/null
+++ b/chapters/de/chapter1/8.mdx
@@ -0,0 +1,32 @@
+# Bias und Einschränkungen
+
+<CourseFloatingBanner chapter={1}
+  classNames="absolute z-10 right-0 top-0"
+  notebooks={[
+    {label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/de/chapter1/section8.ipynb"},
+    {label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/de/chapter1/section8.ipynb"},
+]} />
+
+Wenn du vorhast, ein vortrainiertes Modell oder eine feingetunte Modellversion in der Produktion zu verwenden, sei dir bitte darüber im Klaren, dass diese zwar leistungsstarke Werkzeuge sind, allerdings aber auch ihre Grenzen haben. Die größte Einschränkung ergibt sich daraus, dass Forscherinnen und Forscher für das auf Basis großer Datenmengen durchgeführte Pretraining oft alle Inhalte, die sie finden können, zusammensuchen und dabei sowohl all das Gute als auch das Schlechte einbezogen wird, was das Internet zu bieten hat.
+
+Greifen wir zur Veranschaulichung noch einmal das Beispiel einer `fill-mask`-Pipeline mit dem BERT-Modell auf:
+
+```python
+from transformers import pipeline
+
+unmasker = pipeline("fill-mask", model="bert-base-uncased")
+result = unmasker("This man works as a [MASK].")
+print([r["token_str"] for r in result])
+
+result = unmasker("This woman works as a [MASK].")
+print([r["token_str"] for r in result])
+```
+
+```python out
+['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
+['nurse', 'waitress', 'teacher', 'maid', 'prostitute']
+```
+
+Wenn das Modell aufgefordert wird, das fehlende Wort in diesen beiden Sätzen zu ergänzen, gibt es lediglich eine geschlechtsneutrale Antwort (Kellnerin/Kellner - waitress/waiter). Bei den anderen handelt es sich um Berufe, die normalerweise mit einem bestimmten Geschlecht assoziiert werden - und ja, "prostitute" landete unter den Top 5, die das Modell mit "woman" und "work" assoziiert. Und das, obwohl BERT eines der wenigen Transformer-Modelle ist, das nicht auf Daten aus dem gesamten Internet beruht, sondern auf vermeintlich neutralen Daten (es wurde auf dem [englischsprachigen Wikipedia-](https://huggingface.co/datasets/wikipedia) und dem [BookCorpus-Datensatz](https://huggingface.co/datasets/bookcorpus) trainiert).
+
+Wenn du diese Werkzeuge verwendest, musst du daher im Hinterkopf behalten, dass das ursprüngliche Modell, das du verwendest, sehr leicht sexistische, rassistische oder homophobe Inhalte hervorbringen könnte. Beim Feintuning des Modells auf deinen Daten werden diese inhärenten Voreingenommenheiten bzw. Vorurteile (engl. Bias) nicht verschwinden.
diff --git a/chapters/de/chapter1/9.mdx b/chapters/de/chapter1/9.mdx
new file mode 100644
index 000000000..f65fc8fa4
--- /dev/null
+++ b/chapters/de/chapter1/9.mdx
@@ -0,0 +1,16 @@
+# Zusammenfassung
+
+<CourseFloatingBanner
+    chapter={1}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+In diesem Kapitel hast du gelernt, wie du verschiedene CL-Aufgaben mit der High-Level-Funktion `pipeline()` aus der 🤗 Transformers-Bibliothek angehen kannst. Du hast auch erfahren, wie du im Hub nach Modellen suchen und sie nutzen kannst, und wie du die Inference API verwenden kannst, um die Modelle direkt in deinem Browser zu testen.
+
+Wir haben besprochen, wie Transformer-Modelle im Großen und Ganzen funktionieren, und haben die Bedeutung von Tranfer Learning und Feintuning erläutert. Ein wichtiger Aspekt ist, dass du entweder die gesamte Architektur, nur den Encoder oder auch nur den Decoder verwenden kannst - je nachdem, welche Art von Aufgabe du lösen willst. Die nachfolgende Tabelle gibt noch einmal einen guten Überblick:
+
+| Modell          | Beispiele                                  | Aufgaben (Tasks)                                                                            |
+|-----------------|--------------------------------------------|----------------------------------------------------------------------------------|
+| Encoder         | ALBERT, BERT, DistilBERT, ELECTRA, RoBERTa | Klassifizierung von Sätzen, Eigennamenerkennung/NER, Extraktive Frage-Antwort-Systeme |
+| Decoder         | CTRL, GPT, GPT-2, Transformer XL           | Textgenerierung                                                                  |
+| Encoder-Decoder | BART, T5, Marian, mBART                    | Automatische Textzusammenfassung, Maschinelle Übersetzung, Generative Frage-Antwort-Systeme                        |
diff --git a/chapters/de/glossary/1.mdx b/chapters/de/glossary/1.mdx
index 5f8f859c7..82c7d5fbd 100644
--- a/chapters/de/glossary/1.mdx
+++ b/chapters/de/glossary/1.mdx
@@ -1,68 +1,112 @@
 # Wörterverzeichnis
 
-| Original                    | Übersetzung                     |
-|-----------------------------|---------------------------------|
-| Abstraction                 | Abstraktion                     |
-| Account                     | Account                         |
-| Accuracy                    | Genauigkeit                     |
-| Backward Pass               | Rückwärtsalgorithmus berechnen  |
-| Batch                       | Batch                           |
-| Bias                        | Bias (Voreingenommenheit)       |
-| Chapter                     | Kapitel                         |
-| Class                       | Klasse                          |
-| Code                        | Code                            |
-| Colab Notebook              | Colab Notebook                  |
-| Command                     | Befehl                          |
-| Configuration               | Konfiguration                   |
-| Course                      | Kurs                            |
-| Dependency                  | Abhängigkeitsbeziehung          |
-| Deployment                  | Deployment                      |
-| Development                 | Entwicklung                     |
-| Dictionary                  | Dictionary                      |
-| Distribution                | Verteilung                      |
-| Download                    | Download                        |
-| F1 score                    | F1-Maß                          |
-| Feature                     | Feature                         |
-| Fine-tuning                 | Fein-tunen                      |
-| Folder                      | Ordner                          |
-| Forward Pass                | Vorwärtsalgorithmus berechnen   |
-| Function                    | Funktion                        |
-| Google                      | Google                          |
-| Hugging Face                | Hugging Face                    |
-| Incompatibility             | Inkompatibilität                |
-| Inference                   | Inferenz                        |
-| Library                     | Bibliothek                      |
-| Linux                       | Linux                           |
-| Load                        | laden                           |
-| Loss function               | Verlustfunktion                 |
-| macOS                       | macOS                           |
-| Model                       | Modell                          |
-| Model Hub                   | Model Hub                       |
-| Module                      | Modul                           |
-| Natural Language Processing | Computerlinguistik              |
-| Package                     | Paket                           |
-| Package Manager             | Paektverwaltung                 |
-| Padding                     | das Padding / auffüllen         |
-| Parameter                   | Parameter                       |
-| Python                      | Python                          |
-| Pytorch                     | Pytorch                         |
-| Save                        | speichern                       |
-| Script                      | Script                          |
-| Self-Contained              | in sich abgeschlossen           |
-| Setup                       | Installation                    |
-| TensorFlow                  | Tensorflow                      |
-| Terminal                    | Terminal                        |
-| Tokenizer                   | Tokenizer                       |
-| Train                       | Training                        |
-| Transformer                 | Transformer                     |
-| Virtual Environment         | Virtuelle Umgebung              |
-| Weight                      | Gewicht                         |
-| Weights                     | Gewichtung                      |
-| Windows                     | Windows                         |
-| Working Environment         | Arbeitsumgebung                 |
-| Workload                    | Auslastung                      |
-| Workspace		              | Workspace                       |
-      
+|             Original            |               Übersetzung               |
+|---------------------------------|-----------------------------------------|
+| Abstraction                     | Abstraktion                             |
+| Account                         | Account                                 |
+| Accuracy                        | Genauigkeit                             |
+| Artificial General Intelligence | künstliche allgemeine Intelligenz       |
+| Attention                       | Attention                               |
+| Attention mask (layer)          | Attention-Mask (Layer)                  |
+| Backward Pass                   | Rückwärtsalgorithmus berechnen          |
+| Batch                           | Batch                                   |
+| Bias                            | Bias (Voreingenommenheit)               |
+| Causal Language Modeling        | kausale Sprachmodellierung              |
+| Chapter                         | Kapitel                                 |
+| Checkpoint(s)                   | Checkpoint(s)                           |
+| Class                           | Klasse                                  |
+| Classification                  | Klassifizierung                         |
+| Code                            | Code                                    |
+| Colab Notebook                  | Colab Notebook                          |
+| Command                         | Befehl                                  |
+| Computer Vision                 | Computer Vision                         |
+| Configuration                   | Konfiguration                           |
+| Course                          | Kurs                                    |
+| Decoder                         | Decoder                                 |
+| Dependency                      | Abhängigkeitsbeziehung                  |
+| Deployment                      | Deployment                              |
+| Development                     | Entwicklung                             |
+| Dictionary                      | Dictionary                              |
+| Distribution                    | Verteilung                              |
+| Download                        | Download                                |
+| Encoder                         | Encoder                                 |
+| Extractive question answering   | Extraktives Question Answering          |
+| F1 score                        | F1-Maß                                  |
+| Feature                         | Feature                                 |
+| Fine-tune                       | feintunen                               |
+| Fine-tuning                     | Feintuning                              |
+| Folder                          | Ordner                                  |
+| Forward Pass                    | Vorwärtsalgorithmus berechnen           |
+| Function                        | Funktion                                |
+| Generative question answering   | Generatives Question Answering          |
+| Google                          | Google                                  |
+| Hugging Face                    | Hugging Face                            |
+| Incompatibility                 | Inkompatibilität                        |
+| Inference                       | Inferenz                                |
+| Input                           | Input                                   |
+| Input data                      | Input-Daten                             |
+| Label (verb)                    | labeln (gelabelt), annotieren           |
+| Label (subj)                    | Label, das / Labels, die (plur.)        |
+| Layer                           | Layer (plur. Layer(n))                  |
+| Library                         | Bibliothek                              |
+| Linux                           | Linux                                   |
+| Load                            | laden                                   |
+| Loss function                   | Verlustfunktion                         |
+| Machine Learning                | Maschinelles Lernen                     |
+| macOS                           | macOS                                   |
+| Mask                            | Maskierung                              |
+| Mask Filling                    | Mask Filling                            |
+| Mask Token                      | Mask-Token                              |
+| Masked Language Modeling        | maskierte Sprachmodellierung            |
+| Model                           | Modell                                  |
+| Model Hub                       | Model Hub                               |
+| Module                          | Modul                                   |
+| Named Entities                  | benannte Entitäten                      |
+| Named Entity Recognition        | Eigennamenerkennung                     |
+| Natural Language Processing     | Computerlinguistik                      |
+| Output                          | Output                                  |
+| Package                         | Paket                                   |
+| Package Manager                 | Paketverwaltung                         |
+| Padding                         | das Padding / auffüllen                 |
+| Parameter                       | Parameter                               |
+| Postprocessing                  | Nachverarveitung                        |
+| Preprocessing                   | Vorverarbeitung                         |
+| Pretraining                     | Pretraining                             |
+| Pretrained model                | vortrainiertes Modell                   |
+| Prompt                          | Prompt                                  |
+| Python                          | Python                                  |
+| Pytorch                         | Pytorch                                 |
+| Question Answering              | Question Answering                      |
+| Save                            | speichern                               |
+| Sample                          | Sample (auch Stichprobe)                |
+| Script                          | Script                                  |
+| Self-Contained                  | in sich abgeschlossen                   |
+| Sentiment analysis              | Sentiment-Analyse                       |
+| Sequence-to-sequence models     | Sequence-to-Sequence-Modelle            |
+| Setup                           | Installation                            |
+| Speech Processing               | Verarbeitung gesprochener Sprache       |
+| Speech Recognition              | Spracherkennung                         |
+| Summarization                   | Automatische Textzusammenfassung        |
+| Target                          | Zielvariable / vorherzusagende Variable |
+| Task                            | Aufgabe / Aufgabenstellung              |
+| TensorFlow                      | Tensorflow                              |
+| Terminal                        | Terminal                                |
+| Text generation                 | Textgenerierung                         |
+| Tokenizer                       | Tokenizer                               |
+| Train                           | Training                                |
+| Transfer Learning               | Transfer Learning                       |
+| Transformer                     | Transformer                             |
+| Transformer models              | Transformer-Modelle                     |
+| Translation                     | Maschinelle Übersetzung                 |
+| Virtual Environment             | Virtuelle Umgebung                      |
+| Weight                          | Gewicht                                 |
+| Weights                         | Gewichtung                              |
+| Windows                         | Windows                                 |
+| Working Environment             | Arbeitsumgebung                         |
+| Workload                        | Auslastung                              |
+| Workspace                       | Workspace                               |
+| Zero-shot classification        | Zero-Shot-Klassifizierung               |
+=======
 
 ## Abkürzungen
 
diff --git a/chapters/en/chapter1/1.mdx b/chapters/en/chapter1/1.mdx
index 591e71ccf..2c66a5250 100644
--- a/chapters/en/chapter1/1.mdx
+++ b/chapters/en/chapter1/1.mdx
@@ -55,7 +55,54 @@ About the authors:
 
 **Leandro von Werra**  is a machine learning engineer in the open-source team at Hugging Face and also a co-author of the O’Reilly book [Natural Language Processing with Transformers](https://www.oreilly.com/library/view/natural-language-processing/9781098136789/). He has several years of industry experience bringing NLP projects to production by working across the whole machine learning stack..
 
+## FAQ
+
+Here are some answers to frequently asked questions:
+
+- **Does taking this course lead to a certification?**
+Currently we do not have any certification for this course. However, we are working on a certification program for the Hugging Face ecosystem -- stay tuned!
+
+- **How much time should I spend on this course?**
+Each chapter in this course is designed to be completed in 1 week, with approximately 6-8 hours of work per week. However, you can take as much time as you need to complete the course.
+
+- **Where can I ask a question if I have one?**
+If you have a question about any section of the course, just click on the "*Ask a question*" banner at the top of the page to be automatically redirected to the right section of the [Hugging Face forums](https://discuss.huggingface.co/):
+
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/forum-button.png" alt="Link to the Hugging Face forums" width="75%">
+
+Note that a list of [project ideas](https://discuss.huggingface.co/c/course/course-event/25) is also available on the forums if you wish to practice more once you have completed the course.
+
+- **Where can I get the code for the course?**
+For each section, click on the banner at the top of the page to run the code in either Google Colab or Amazon SageMaker Studio Lab:
+
+<img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter1/notebook-buttons.png" alt="Link to the Hugging Face course notebooks" width="75%">
+
+The Jupyter notebooks containing all the code from the course are hosted on the [`huggingface/notebooks`](https://github.com/huggingface/notebooks) repo. If you wish to generate them locally, check out the instructions in the [`course`](https://github.com/huggingface/course#-jupyter-notebooks) repo on GitHub.
+
+
+- **How can I contribute to the course?**
+There are many ways to contribute to the course! If you find a typo or a bug, please open an issue on the [`course`](https://github.com/huggingface/course) repo. If you would like to help translate the course into your native language, check out the instructions [here](https://github.com/huggingface/course#translating-the-course-into-your-language).
+
+- ** What were the choices made for the each translation?**
+Each translation has a glossary and `TRANSLATING.txt` file that details the choices that were made for machine learning jargon etc. You can find an example for German [here](https://github.com/huggingface/course/blob/main/chapters/de/TRANSLATING.txt).
+
+
+- **Can I reuse this course?**
+Of course! The course is released under the permissive [Apache 2 license](https://www.apache.org/licenses/LICENSE-2.0.html). This means that you must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use. If you would like to cite the course, please use the following BibTeX:
+
+```
+@misc{huggingfacecourse,
+  author = {Hugging Face},
+  title = {The Hugging Face Course, 2022},
+  howpublished = "\url{https://huggingface.co/course}",
+  year = {2022},
+  note = "[Online; accessed <today>]"
+}
+```
+
 Are you ready to roll? In this chapter, you will learn:
+
 * How to use the `pipeline()` function to solve NLP tasks such as text generation and classification
 * About the Transformer architecture
 * How to distinguish between encoder, decoder, and encoder-decoder architectures and use cases
+
diff --git a/chapters/es/_toctree.yml b/chapters/es/_toctree.yml
index 24519d9e3..6289440b6 100644
--- a/chapters/es/_toctree.yml
+++ b/chapters/es/_toctree.yml
@@ -35,6 +35,10 @@
     title: Manejando Secuencias Múltiples
   - local: chapter2/6
     title: Poniendo todo junto
+  - local: chapter2/7
+    title: ¡Haz completado el uso básico!
+  - local: chapter2/8
+    title: Quiz de final de capítulo
 
 - title: 3. Ajuste (fine-tuning) de un modelo preentrenado
   sections:
diff --git a/chapters/es/chapter2/7.mdx b/chapters/es/chapter2/7.mdx
new file mode 100644
index 000000000..6d7c470c3
--- /dev/null
+++ b/chapters/es/chapter2/7.mdx
@@ -0,0 +1,18 @@
+# ¡Haz completado el uso básico!
+
+<CourseFloatingBanner
+    chapter={2}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+¡Buen trabajo siguiendo el curso hasta ahora! Para recapitular, en este capítulo tú:
+
+- Aprendiste los bloques de construcción básicos de un modelo Transformer.
+- Aprendiste lo que compone a un pipeline de tokenización.
+- Viste cómo usar un modelo Transformer en la práctica.
+- Aprendiste cómo aprovechar un tokenizador para convertir texto a tensores que sean entendibles por el modelo.
+- Configuraste un tokenizador y un modelo juntos para pasar dle texto a predicciones.
+- Aprendiste las limitaciones de los IDs de entrada, y aprendiste acerca de máscaras de atención.
+- Jugaste con los métodos del tokenizador versátiles y configurables.
+
+A partir de ahora, serás capaz de navegar libremente por la documentación de 🤗 Transformers: el vocabulario te sonará familiar, ya que has visto los métodos que usarás la mayor parte del tiempo.
diff --git a/chapters/es/chapter2/8.mdx b/chapters/es/chapter2/8.mdx
new file mode 100644
index 000000000..b935571c7
--- /dev/null
+++ b/chapters/es/chapter2/8.mdx
@@ -0,0 +1,310 @@
+<FrameworkSwitchCourse {fw} />
+
+<!-- DISABLE-FRONTMATTER-SECTIONS -->
+
+# Quiz de final de capítulo
+
+<CourseFloatingBanner
+    chapter={2}
+    classNames="absolute z-10 right-0 top-0"
+/>
+
+### 1. ¿Cuál es el orden del pipeline de modelado del lenguaje?
+
+<Question
+	choices={[
+		{
+			text: "Primero, el modelo que maneja el texto y devuelve las peticiones sin procesar. El tokenizador luego da sentido a estas predicciones y las convierte nuevamente en texto cuando es necesario.",
+			explain: "¡El modelo no puede entender texto! El tokenizador primero debe tokenizar el texto y convertirlo a IDs para que así sea comprensible por el modelo."
+		},
+		{
+			text: "Primero, el tokenizador, que maneja el texto y regresa IDs. El modelo maneja estos IDs y produce una predicción, la cual puede ser algún texto.",
+			explain: "La predicción del modelo no puede ser texto de forma directa. ¡El tokenizador tiene que ser usado de tal forma que convierta la predicción de vuelta a texto!"
+		},
+		{
+			text: "El tokenizador maneja texto y regresa IDs. El modelo maneja estos IDs y produce una predicción. El tokenizador puede luego ser usado de nuevo para convertir estas predicciones de vuelta a texto.",
+			explain: "¡Correcto! El tokenizador puede ser usado tanto para tokenizar como des-tokenizar.",
+            correct: true
+		}
+	]}
+/>
+
+### 2. ¿Cuántas dimensiones tiene el tensor producido por el modelo base de Transformer y cuáles son?
+
+<Question
+	choices={[
+		{
+			text: "1: La longitud de secuencia y el tamaño del lote",
+			explain: "¡Falso! El tensor producido por el modelo tiene una tercer dimensión: tamaño oculto."
+		},
+		{
+			text: "2: La longitud de secuencia y el tamaño oculto",
+			explain: "¡Falso! All Todos los modelos Transformer manejan lotes, aún con una sola secuencia; lo cual sería un lote de tamaño 1!"
+		},
+		{
+			text: "3: La longitud de secuencia, el tamaño de lote y el tamaño oculto",
+			explain: "¡Correcto!",
+            correct: true
+		}
+	]}
+/>
+
+### 3. ¿Cuál de los siguientes es un ejemplo de tokenización de subpalabras?
+
+<Question
+	choices={[
+		{
+			text: "WordPiece",
+			explain: "¡Sí ese es un ejemplo de tokenización de subpalabras!",
+            correct: true
+		},
+		{
+			text: "Tokenización basada en caracteres",
+			explain: "La tokenización basada en caracteres no es un tipo de tokenización de subpalabras."
+		},
+		{
+			text: "División por espacios en blanco y puntuación",
+			explain: "¡Ese es un esquema de tokenización basado en palabras!"
+		},
+		{
+			text: "BPE",
+			explain: "¡Sí ese es un ejemplo de tokenización de subpalabras!",
+            correct: true
+        },
+		{
+			text: "Unigrama",
+			explain: "¡Sí ese es un ejemplo de tokenización de subpalabras!",
+            correct: true
+        },
+		{
+			text: "Ninguno de los anteriores",
+			explain: "¡Incorrecto!"
+        }
+	]}
+/>
+
+### 4. ¿Qué es una cabeza del modelo?
+
+<Question
+	choices={[
+		{
+			text: "Un componente de la red de Transformer base que redirecciona los tensores a sus capas correctas",
+			explain: "¡Incorrecto! No hay tal componente."
+		},
+		{
+			text: "También conocido como el mecanismo de autoatención, adapta la representación de un token de acuerdo a los otros tokens de la secuencia", 
+			explain: "¡Incorrecto! La capa de autoatención contiene \"cabezas\", pero éstas no son cabezas de adaptación."
+		},
+		{
+			text: "Un componente adcional, compuesto usualmente de una o unas pocas capas, para convertir las predicciones del transformador a una salida específica de la tarea",
+			explain: "Así es, Las cabezas de adaptación, también conocidas simplemente como habezas, vienen en diferentes formas: cabezas de modelado de lenguaje, cabezas de respuesta a preguntas, cabezas de clasificación de secuencia... ",
+			correct: true
+		} 
+	]}
+/>
+
+{#if fw === 'pt'}
+### 5. ¿Qué es un AutoModel?
+
+<Question
+	choices={[
+		{
+			text: "Un modelo que entrena automáticamente en tus datos",
+			explain: "Incorrecto. ¿Estás confundiendo esto con nuestro producto <a href='https://huggingface.co/autotrain'>AutoTrain</a>?"
+		},
+		{
+			text: "Un objeto que devuelve la arquitectura correcta basado en el punto de control",
+			explain: "Exacto: el <code>AutoModel</code> sólo necesita conocer el punto de control desde el cual inicializar para devolver la arquitectura correcta.",
+			correct: true
+		},
+		{
+			text: "Un modelo que detecta automáticamente el lenguaje usado por sus entradas para cargar los pesos correctos",
+			explain: "Incorrecto; auqneu algunos puntos de control y modelos son capaced de manejar varios lenguajes, no hay herramientas integradas para la selección automática de punto de control de acuerdo al lenguaje. ¡Deberías dirigirte a <a href='https://huggingface.co/models'>Model Hub</a> para encontrar el mejor punto de control para tu tarea!"
+		} 
+	]}
+/>
+
+{:else}
+### 5. ¿Qué es un TFAutoModel?
+
+<Question
+	choices={[
+		{
+			text: "Un modelo que entrena automáticamente en tus datos",
+			explain: "Incorrecto. ¿Estás confundiendo esto con nuestro producto <a href='https://huggingface.co/autotrain'>AutoTrain</a>?"
+		},
+		{
+			text: "Un objeto que devuelve la arquitectura correcta basado en el punto de control",
+			explain: "Exacto: el <code>TFAutoModel</code> sólo necesita conocer el punto de control desde el cual inicializar para devolver la arquitectura correcta.",
+			correct: true
+		},
+		{
+			text: "Un modelo que detecta automáticamente el lenguaje usado por sus entradas para cargar los pesos correctos",
+			explain: "Incorrecto; auqneu algunos puntos de control y modelos son capaced de manejar varios lenguajes, no hay herramientas integradas para la selección automática de punto de control de acuerdo al lenguaje. ¡Deberías dirigirte a <a href='https://huggingface.co/models'>Model Hub</a> para encontrar el mejor punto de control para tu tarea!"
+		} 
+	]}
+/>
+
+{/if}
+
+### 6. ¿Cuáles son las técnicas a tener en cuenta al realizar batching de secuencias de diferentes longitudes juntas?
+
+<Question
+	choices={[
+		{
+			text: "Truncado",
+			explain: "Sí, el truncamiento es una forma correcta de emparejar secuencias de modo que se ajusten a una forma rectangular. ¿Aunque, es la única?",
+			correct: true
+		},
+		{
+			text: "Returning tensors",
+			explain: "Mientras las otras técnicas te permiten devolver tensores rectangulares, returning tensors no es útil cuando se hace batching en secuencias juntas."
+		},
+		{
+			text: "Relleno",
+			explain: "Sí, el relleno es una forma correcta de emparejar secuencias de modo que se ajusten a una forma rectangular. ¿Aunque, es la única?",
+			correct: true
+		}, 
+		{
+			text: "Enmascarado de atención",
+			explain: "¡Absolutamente! Las máscaras de atención son de primera importancia cuando se manejan secuencias de diferentes longitudes. Sin embargo, no es la única técnica a tener en cuenta.",
+			correct: true
+		} 
+	]}
+/>
+
+### 7. ¿Cuál es el punto de aplicar una funcion SoftMax a las salidas logits por un modelo de clasificación de secuencias?
+
+<Question
+	choices={[
+		{
+			text: "Suaviza los logits para que sean más fiables.",
+			explain: "No, la función SoftMax no afecta en la fiabilidad de los resultados."
+		},
+		{
+			text: "Aplica un límiete inferior y superior de modo que sean comprensibles.",
+			explain: "¡Correcto! Los valores resultantes están limitados entre 0 y 1. Aunque, no es la única razón por la cual usamos una función SoftMax.",
+            correct: true
+		},
+		{
+			text: "La suma total de la salida es entonces 1, dando como resultado una posible interpretación probabilística.",
+			explain: "¡Correcto! Aunque, esa no es la única razón por la que usamos una función SoftMax.",
+            correct: true
+		}
+	]}
+/>
+
+### 8. ¿En qué método se centra la mayor parte de la API del tokenizador?
+
+<Question
+	choices={[
+		{
+			text: "<code>encode</code>, ya que puede codificar texto en IDs e IDs en predicciones",
+			explain: "¡Incorrecto! Aunque el método <code>encode</code> existe en los tokenizadores, no existe en los modelos." 
+		},
+		{
+			text: "Llamar al objeto tokenizador directamente.",
+			explain: "¡Exactamente! El método <code>__call__</code> del tokenizador es un método muy poderoso el cual puede manejar casi cualquier cosa.También es el método usado para recuperar las predicciones de un modelo.",
+			correct: true
+		},
+		{
+			text: "<code>pad</code>",
+			explain: "¡Incorrecto! El relleno es muy útil, pero es solo una parte de la API tokenizador."
+		},
+		{
+			text: "<code>tokenize</code>",
+			explain: "El método <code>tokenize</code> es posiblemente uno de los métodos más útiles, pero no es el núcleo de la API tokenizador."
+		}
+	]}
+/>
+
+### 9. ¿Qué contiene la variable `result` en este código de ejemplo?
+
+```py
+from transformers import AutoTokenizer
+
+tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
+result = tokenizer.tokenize("Hello!")
+```
+
+<Question
+	choices={[
+		{
+			text: "Una lista de strings, cada string es un token",
+			explain: "¡Por supuesto! ¡Convierte esto a IDs, y los envía a los modelos!",
+            correct: true
+		},
+		{
+			text: "Una lista de IDs",
+			explain: "Incorrecto; ¡para eso están los métodos <code>__call__</code> o <code>convert_tokens_to_ids</code>!"
+		},
+		{
+			text: "Una cadena que contiene todos los tokens",
+			explain: "Esto sería subóptimo, ya que el objetivo es dividir la cadena en varios tokens."
+		}
+	]}
+/>
+
+{#if fw === 'pt'}
+### 10. ¿Hay algo mal con el siguiente código?
+
+```py
+from transformers import AutoTokenizer, AutoModel
+
+tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
+model = AutoModel.from_pretrained("gpt2")
+
+encoded = tokenizer("Hey!", return_tensors="pt")
+result = model(**encoded)
+```
+
+<Question
+	choices={[
+		{
+			text: "No, parece correcto.",
+			explain: "Desafortunadamente, acoplar un modelo con un tokenizador que fue entrenado con un punto de control distinto raramente es una buena idea. El modelo no fue entrenado para dar sentido a la salida de este tokenizador, así la salida del modelo (¡si es que puede correr!) no tendrá ningún sentido."
+		},
+		{
+			text: "El tokenizador y el modelo siempre deben ser del mismo punto de control.",
+			explain: "¡Correcto!",
+            correct: true
+		},
+		{
+			text: "Es una buena práctica rellenar y truncar con el tokenizador ya que cada entrada es un lote.",
+			explain: "Es cierto que cada entrada de modelo necesita ser un lote. Sin embargo, truncar o rellenar esta secuencia no necesariamente hace sentido ya que sólo hay una, y esas son técnicas para juntar una lista de oraciones."
+		}
+	]}
+/>
+
+{:else}
+### 10. ¿Hay algo mal con el siguiente código?
+
+```py
+from transformers import AutoTokenizer, TFAutoModel
+
+tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
+model = TFAutoModel.from_pretrained("gpt2")
+
+encoded = tokenizer("Hey!", return_tensors="pt")
+result = model(**encoded)
+```
+
+<Question
+	choices={[
+		{
+			text: "No, parece correcto.",
+			explain: "Desafortunadamente, acoplar un modelo con un tokenizador que fue entrenado con un punto de control distinto raramente es una buena idea. El modelo no fue entrenado para dar sentido a la salida de este tokenizador, así la salida del modelo (¡si es que puede correr!) no tendrá ningún sentido."
+		},
+		{
+			text: "El tokenizador y el modelo siempre deben ser del mismo punto de control.",
+			explain: "¡Correcto!",
+            correct: true
+		},
+		{
+			text: "Es una buena práctica rellenar y truncar con el tokenizador ya que cada entrada es un lote.",
+			explain: "Es cierto que cada entrada de modelo necesita ser un lote. Sin embargo, truncar o rellenar esta secuencia no necesariamente hace sentido ya que sólo hay una, y esas son técnicas para juntar una lista de oraciones."
+		}
+	]}
+/>
+
+{/if}
diff --git a/utils/generate_notebooks.py b/utils/generate_notebooks.py
index 781fb19b3..d7f235243 100644
--- a/utils/generate_notebooks.py
+++ b/utils/generate_notebooks.py
@@ -21,6 +21,9 @@
 frameworks = {"pt": "PyTorch", "tf": "TensorFlow"}
 
 PATH_TO_COURSE = Path("chapters/")
+# Languages to exlude from the notebook generation because the notebooks were
+# created manually
+LANGS_TO_EXCLUDE = ["fr"]
 
 
 def read_and_split_frameworks(fname):
@@ -277,6 +280,8 @@ def create_notebooks(language, output_dir):
     languages = [f.stem for f in PATH_TO_COURSE.iterdir() if f.is_dir()]
 
     for language in languages:
+        if language in LANGS_TO_EXCLUDE:
+            continue
         language_output_dir = f"{args.output_dir}/{language}"
         create_notebooks(language, language_output_dir)
         # Remove empty notebook folders